基于 PU-Learning 的分类方法 简介 正例和无标记样本学习(Learning from Positive and Unlabled Example)简称PU或LPU学习,是一种半监督的二元分类模型,通过标注过的正样本和大量未标注的样本训练出一个二元分类器。 与普通分类问题不同,PU问题中P的规模通常相当小,扩大正样本集.... 查看详情
基于随机森林的缺失值填补 1. 随机森林简介 随机森林算法在2001年由Breiman首次提出,主要的分类思想为:利用BootStrap抽样(有放回抽样)从N个训练样本中抽取m个样本集,每个样本集容量也为N,对这m个样本集分别建立m棵决策树,对一个未知的样本x,分别用这个m棵决策树进行分类,最后根据m个分类结果的投票得.... 查看详情
关于论坛网站中问题质量的研究 2014年的文章"Great Question! Question Quality in Community Q&A" 主要针对论坛网站中的问题质量进行研究。 在很多论坛网站中(比如:知乎、StackOverflow.com),问题的质量至关重要。高质量问题可以提高网站名气,给用户更好.... 查看详情
一种基于连接图的 Web 文档聚类方法 09年的文章“Efficient Clustering of Web-Derived Data Sets”提出了一种基于连接图的web文档聚类方法,该方法不仅在性能可与平衡数据集上的streaming clustering(流聚类算法)相媲美,而且在处理稀疏、非平衡数据集时也加高效。 1.Web数.... 查看详情
使用数据挖掘方法进行自动化聊天分析 在线聊天中实时的自适应反馈和学习有助于增强聊天系统的“意识”,07年的文章 "Towards educational data mining: Using data mining methods for automated chat analysis to understand and suppor.... 查看详情
虚拟参考咨询和即时通讯的比较 文章"Learning from Chatting: How Our Virtual Reference Questions Are Giving Us Answers" 通过比较图书馆的两种主要在线咨询方式:虚拟参考咨询(VR)和即时通讯咨询(IM),来指导图书馆提供哪种咨询方式可以更加高效地帮助.... 查看详情
基于网络搜索的知识库填充方法 目前公开的知识库中(比如:Freebase,NELL和YAGO),尽管数据量看似很大,但依然是高度不完善的。比如Freebase中,有70%的人出生地是未知的,有99%的人种族信息是未知的。Google在文章 Knowledge Base Completion via Search-Based Qu.... 查看详情
机器学习中的一些注意事项 本文参考Communications of the ACM 2012年第10期的 "A Few Useful Things to Know About Machine Learning",对其中的一些要点进行阐述。 1.泛化的重要性 机器学习的基本目标是对训练集中的样例进行泛化,这是因为不管我们.... 查看详情