首页 > 人工智能 > 关于论坛网站中问题质量的研究

关于论坛网站中问题质量的研究

 

2014年的文章”Great Question! Question Quality in Community Q&A” 主要针对论坛网站中的问题质量进行研究。

在很多论坛网站中(比如:知乎、StackOverflow.com),问题的质量至关重要。高质量问题可以提高网站名气,给用户更好的体验,更能吸引很多专家来解答问题,最终提升网站的综合排名。因此,很多论坛通过各种方式(比如:经验值、奖章等)引导用户提问高质量的问题。

一个问题有多“好”,很难直接从解答的答案中看出。比如关于C语言的两个问题:

1. C语言中”->”和”.”为什么要有区别?

2. 怎么把用户的输入存入char数组中。

毫无疑问,第一个问题的质量较高,它会让我们思考为什么Dennis Ritchie要在C语言中制定这种语法。实际上,在StackOverflow论坛中,第二个问题的浏览量比第一个问题高出一个数量级(23000 VS. 1500),但第一个问题的up vote比第二个问题高出一个数量级(44 VS. 1)。StackOverflow论坛中的up vote指提出的问题”shows research effort; it is useful and clear”。这个例子可以看出,问题的浏览量(或人气),对问题质量的衡量用处不大。

1.数据

采用StackOverflow论坛中08-09年的所有问题,以及相应的答案和评论,其中,问题共计410049个,答案10284555条,评论22666469条。对每个问题,抽取其title、anthor、问题内容及时间戳、浏览量、问题得分(up votes – down votes)。

2.问题质量的概念

StackOverflow论坛中,每个问题的左边都有一个数字,是该问题up votes与down votes的差值,由于这个值一般随着该问题页面的浏览量增加而增加,而且如果为0,则表示up votes与down votes数量相同(两者可能都是很大的数,也可能都为0),所以,单凭这个值的大小很难断定一个问题的质量。因此,还要考虑到页面的浏览量。

问题质量记为p=s/v,其中,s为页面中问题的用户投票结果(up votes – down votes),v为页面浏览量。选取v>1000的问题,如果p=0,表示该问题虽然浏览量大,但质量不高,标记为”bad”;如果p>0.001(所有问题的平均质量p为0.002),则认为该问题质量较高,标记为”good”。把标记后的问题随机切分为训练集和测试集:Q_train和Q_test。

3.问题质量的预测

把每个标记过的问题关于论坛网站中问题质量的研究 - 第1张  | 新闻中心表示为关于论坛网站中问题质量的研究 - 第2张  | 新闻中心,其中,关于论坛网站中问题质量的研究 - 第3张  | 新闻中心是标签(“good”或”bad”),关于论坛网站中问题质量的研究 - 第4张  | 新闻中心是一组特征向量。可以构造出如下的目标函数,我们的目标就是求出使上式训练误差最小的一组权值w:

关于论坛网站中问题质量的研究 - 第5张  | 新闻中心

下面给出几个具体的预测模型或方法,后面会对这些模型的预测结果进行比较。

3.1 根据问题内容预测

首先对问题进行预处理:HTML格式转换、句子划分、移除停用词等等。对问题的title和body分别建立预测模型,抽取以下两种主要特征用于预测:长度(title和body中词语和句子的数量);文本(从title和body中抽取的ngram特征,本文中采用unigram)。

3.2 全局主题模型(Global topic models)

StackOverflow论坛中,不同类型的问题投票模式有着很大不同(比如一个隐晦生涩的主题可能很难引起人们的兴趣)。所以,我们把问题的类型作为预测任务中的一个额外特征(主题可以采用非监督的隐主题模型方式学习得到)。

令K为主题数量,Q=Q_train∪Q_test,对任意q∈Q,以权重关于论坛网站中问题质量的研究 - 第6张  | 新闻中心增加一个主题特征t(关于论坛网站中问题质量的研究 - 第7张  | 新闻中心)。要计算得到关于论坛网站中问题质量的研究 - 第8张  | 新闻中心,采用一种在线Variational Bayes(Hoffman,Blei, and Bach 2010)的算法,它比传统的LDA更加高效,而且还可以处理流数据。最后,对于每个问题,可以得到关于论坛网站中问题质量的研究 - 第9张  | 新闻中心的一组属于不同主题的概率集,可用于后续的预测任务。

3.3 句子主题模型(Sentence topic model)

在预测任务中还要考虑到问题本身的内容(比如里面的结构信息)。为此,我们采用句子主题模型根据其内部结构计算主题分布,具体步骤如下:

step 1.每个问题关于论坛网站中问题质量的研究 - 第10张  | 新闻中心按其包含的句子进行划分得到关于论坛网站中问题质量的研究 - 第11张  | 新闻中心,把所有问题的划分结果融合在一起,得到关于论坛网站中问题质量的研究 - 第12张  | 新闻中心

step 2. 使用3.2中提到的在线LDA算法使用语料关于论坛网站中问题质量的研究 - 第13张  | 新闻中心训练模型;

step 3. 对于给定的问题关于论坛网站中问题质量的研究 - 第14张  | 新闻中心,可以通过累加其每条子句的主题权值得到其主题分布:

关于论坛网站中问题质量的研究 - 第15张  | 新闻中心

4.预测结果比较

 

关于论坛网站中问题质量的研究 - 第16张  | 新闻中心在实验过程中,还发现一个有趣的现象:高质量的问题一般都很简洁。

5.结论

本文通过实验对比,对提出的几个预测问题质量模型进行分析,最好的组合模型可以达到72%的准确率。而且,随着时间越久,用户们会对高质量的问题产生更多的兴趣和行为,这也从另一个角度验证了问题质量这一概念的必要性。

 

 

 

最后编辑:
作者:兴明
这个作者貌似有点懒,什么都没有留下。

留下评论

你的email不会被公开。