机器学习可用数据集

机器学习可用数据集

  • UCI Machine Learning Repository 最有名的机器学习数据资源来自美国加州大学欧文分校. 该数据库已经提供了 200 多个可用的数据集. 其中很多数据常被用来比较算法的性能, 基于这些资源, 研究人员可以得到相对客观的性能比较结果.
  • 大型公用数据集存储库 如果你是一个大数据的爱好者, 这个链接尤其不能做过. Amazon 拥有真正的数据, 包括美国人口普查数据, 人类基因组注释的数据, 一个 150GB 的日志(维基百科的页面流量)和一个 500GB 的数据库(维基百科的链接数据).
  • Data.gov Data.gov 启动于 2009 年, 目的是使公众可以更加方便地访问政府的数据. 一旦政府的某份数据可以公开, 他们就将该数据发布. 到 2010 年, 该网站就已经拥有了 250,000 个数据集. 但该网站还能活跃多久尚未可知, 因为 2011 年的时候联邦政府减少了对电子政府(Electronic Government Fund, 该网站的资金来源)的基金支持. 该网站提供的数据主要包含一些被召回的产品和破产的银行信息等.
  • Data.gov Data.gov 还维持了一个包括美国州, 城市和国家等网站在内的超链接列表, 他们都提供类似的开放数据.
  • Infochimps Infochimps 是一个公司, 公司的目标是让每个人可以访问世界上的数据集, 目前它已开放了 14000 多个数据集的下载. 与本列表中的其他站点不同, Infochimps 的其中一些数据集是需要购买的. 当然, 你也可以在该网站上出售自己的数据集.

p.s. 另附《机器学习实战》源码和数据样本
百度盘 Dropbox

Leave a Reply

%d bloggers like this: