Browsed by
Category: Mechine Learning

朴素贝叶斯

朴素贝叶斯

创建词汇表 将文档中的新词集合添加到词汇表 词集模型(set-of-words model) 通过词汇表将文档转换为文档向量, 向量的每个元素表示词汇表中的单词在输入文档中是否出现 词袋模型(bag-of-words model) 文档向量的每个函数表示词汇表中的单词在文档中出现的次数 使用正则表达式切分文本 捕获所有单词, 去掉少于两个字母的字符串, 并将所有字符串转换为小写 p.s. 书中使用的正则表达式为 r’\W*’, 运行时出现警告 split() requires a non-empty pattern match. 官方文档如下: Note: split() doesn’t currently split a string on an empty pattern match. For example: Even though ‘x*’ also matches 0 ‘x’ before ‘a’, between ‘b’ and ‘c’, and after ‘c’, currently these matches are ignored. The correct behavior (i.e. splitting on empty matches too and returning [”, ‘a’, ‘b’, ‘c’, ”]) will be implemented in future…

Read More Read More

机器学习可用数据集

机器学习可用数据集

UCI Machine Learning Repository 最有名的机器学习数据资源来自美国加州大学欧文分校. 该数据库已经提供了 200 多个可用的数据集. 其中很多数据常被用来比较算法的性能, 基于这些资源, 研究人员可以得到相对客观的性能比较结果. 大型公用数据集存储库 如果你是一个大数据的爱好者, 这个链接尤其不能做过. Amazon 拥有真正的大数据, 包括美国人口普查数据, 人类基因组注释的数据, 一个 150GB 的日志(维基百科的页面流量)和一个 500GB 的数据库(维基百科的链接数据). Data.gov Data.gov 启动于 2009 年, 目的是使公众可以更加方便地访问政府的数据. 一旦政府的某份数据可以公开, 他们就将该数据发布. 到 2010 年, 该网站就已经拥有了 250,000 个数据集. 但该网站还能活跃多久尚未可知, 因为 2011 年的时候联邦政府减少了对电子政府(Electronic Government Fund, 该网站的资金来源)的基金支持. 该网站提供的数据主要包含一些被召回的产品和破产的银行信息等. Data.gov Data.gov 还维持了一个包括美国州, 城市和国家等网站在内的超链接列表, 他们都提供类似的开放数据. Infochimps Infochimps 是一个公司, 公司的目标是让每个人可以访问世界上的数据集, 目前它已开放了 14000 多个数据集的下载. 与本列表中的其他站点不同, Infochimps 的其中一些数据集是需要购买的. 当然, 你也可以在该网站上出售自己的数据集. p.s. 另附《机器学习实战》源码和数据样本 百度盘 Dropbox