en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
作者简介:

李卓轩,男,硕士生,研究方向为数据挖掘、机器学习方法以及智慧政务.lizhuoxuan4242@126.com;

曹进德(通信作者),男,博士,教授,博士生导师,研究方向为复杂网络、群体智能算法、系统科学等.jdcao@seu.edu.cn

中图分类号:TP391.1;D63

文献标识码:A

DOI:10.13878/j.cnki.jnuist.2022.02.006

参考文献 1
马宝君,张楠,谭棋天.基于政民互动大数据的公共服务效能影响因素分析[J].中国行政管理,2018(10):109-115;MA Baojun,ZHANG Nan,TAN Qitian.The determinants analysis of public service efficiency based on G2C big data[J].Chinese Public Administration,2018(10):109-115
参考文献 2
中国互联网络信息中心.中国互联网络发展状况统计报告[R/OL].[2020-09-29].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/P020210205509651950014.pdf;China Internet Network Information Center.The 46th China statistical report on internet development[R/OL].[2020-09-29].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/P020210205509651950014.pdf
参考文献 3
李锋,孟天广.策略性政治互动:网民政治话语运用与政府回应模式[J].武汉大学学报(人文科学版),2016,69(5):119-129;LI Feng,MENG Tianguang.The strategic political interaction:political discourses of netizens and government responsiveness in cyber space[J].Wuhan University Journal(Humanity Sciences),2016,69(5):119-129
参考文献 4
习近平总书记在网络安全和信息化工作座谈会上的讲话[EB/OL].[2021-05-06].http://www.xinhuanet.com/zgjx/2016-04/26/c_135312437.htm
参考文献 5
江苏省人民政府办公厅.江苏省政府信息公开申请办理答复规范[EB/OL].[2021-05-06].http://www.jiangsu.gov.cn/art/2020/1/17/art_46144_8945275.html
参考文献 6
孙宗锋,赵兴华.网络情境下地方政府政民互动研究:基于青岛市市长信箱的大数据分析[J].电子政务,2019(5):12-26;ZHAO Zongfeng,ZHAO Xinghua.Research on interaction between local governments and civilians in the internet context:big data analysis based on the mailbox of the mayor of Qingdao[J].E-Governmemt,2019(5):12-26
参考文献 7
姚水琼,齐胤植.美国数字政府建设的实践研究与经验借鉴[J].治理研究,2019,35(6):60-65;YAO Shuiqiong,QI Yinzhi.Practical research and experience reference of the construction of digital government in the United States[J].Governance Studies,2019,35(6):60-65
参考文献 8
段哲哲,刘江.网络问政的政府回应逻辑:公开承诺压力与选择性回应[J].浙江工商大学学报,2019,33(4):79-89;DUAN Zhezhe,LIU Jiang.Government responsive logic in network politics:public commitment pressure and selective response[J].Journal of Zhejiang Gongshang University,2019,33(4):79-89
参考文献 9
王李.政府门户网站市长电子信箱回应性评估及提升对策研究[D].湘潭:湘潭大学,2017;WANG Li.The research on responsive evaluation and promotion countermeasures of mayor's mailbox of government portal website[D].Xiangtan:Xiangtan University,2017
参考文献 10
王思迪,胡广伟,杨巳煜,等.基于文本分类的政府网站信箱自动转递方法研究[J].数据分析与知识发现,2020,4(6):51-59;WANG Sidi,HU Guangwei,YANG Siyu,et al.Automatic transferring government website e-mails based on text classification[J].Data Analysis and Knowledge Discovery,2020,4(6):51-59
参考文献 11
清华大学公共管理学院,清华大学国家治理研究院.2020年中国政府网站绩效评估报告[EB/OL].[2021-05-06].http://www.sppm.tsinghua.edu.cn/xwzx/lbxw/26efe489754943fa01767501d05a00c5.html
参考文献 12
李卓轩,林凯迪,郭建华,等.基于车联网数据的运输车辆安全评价模型[J].南通大学学报(自然科学版),2020,19(1):26-32,47;LI Zhuoxuan,LIN Kaidi,GUO Jianhua,et al.Transportation vehicle safety evaluation model based on vehicle network data[J].Journal of Nantong University(Natural Science Edition),2020,19(1):26-32,47
参考文献 13
马帅,王腾蛟,唐世渭,等.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095;MA Shuai,WANG Tengjiao,TANG Shiwei,et al.A fast clustering algorithm based on reference and density[J].Journal of Software,2003,14(6):1089-1095
参考文献 14
田隽,厉丹,肖理庆.基于Meanshift聚类-Bhattacharya观测似然度修正的联合概率数据关联改进算法[J].计算机应用,2014,34(5):1279-1282;TIAN Jun,LI Dan,XIAO Liqing.Improved joint probabilistic data association algorithm based on Meanshift clustering and Bhattacharya likelihood modification[J].Journal of Computer Applications,2014,34(5):1279-1282
参考文献 15
贾俊芳.基于层次聚类的主动学习方法:HC_AL[J].计算机应用,2011,31(8):2134-2137;JIA Junfang.HC_AL:new active learning method based on hierarchical clustering[J].Journal of Computer Applications,2011,31(8):2134-2137
参考文献 16
黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864;HUANG Chenghui,YIN Jian,HOU Fang.A text similarity measurement combining word semantic information with TF-IDF method[J].Chinese Journal of Computers,2011,34(5):856-864
参考文献 17
张振亚,王进,程红梅,等.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163;ZHANG Zhenya,WANG Jin,CHENG Hongmei,et al.An approach for spatial index of text information based on cosine similarity[J].Computer Science,2005,32(9):160-163
参考文献 18
李健豪,章品正.相似单词查找方法研究与实现[J].微计算机信息,2012,28(9):417-418,461;LI Jianhao,ZHANG Pinzheng.Research and application on similarity word searching method[J].Microcomputer Information,2012,28(9):417-418,461
参考文献 19
周志华,王珏.机器学习及其应用2009[M].北京:清华大学出版社,2009;ZHOU Zhihua,WANG Jue.Machine learning and its application 2009[M].Beijing:Tsinghua University Press,2009
目录contents

    摘要

    为了提高政府事务管理水平和处理效率,打造“智慧政务”平台,针对政务服务中群众留言的答复内容进行客观评价,提出了一种结合多算法的群众留言回复评价模型.首先,根据答复文本内容定义答复长度、相似性、完整性、可解释性和及时性5个评价特征指标,分别从内容、格式、合理程度和时间4个角度对文本进行评价;其次,采用回归分析方法对答复意见类型进行分析;接着,分别采用K-means聚类、DBSCAN聚类算法、Meanshift聚类算法、HC聚类算法对答复意见等级进行分析,根据4种聚类算法效果对比结果,选用K-means聚类算法,再将聚类算法和回归分析的结果结合,对答复意见进行评价,并将评价等级分为6类.本文模型将机器学习中的数据挖掘和数据分析算法与“智慧政务”相结合,为政府事务管理的研究提供了一个量化分析的工具.

    Abstract

    In order to improve the management level and processing efficiency of government affairs,we propose a multi-algorithm-combined model to evaluate the replies to public consultations in government service.First,we define the five aspects of evaluation including the reply length,similarity,completeness,interpretability and timeliness,and evaluate the text from four perspectives of content,format,reasonableness,and timeliness.Second,we analyze the types of replies by regression analysis.Then,grade the replies by clustering algorithms of K-means,DBSCAN,Meanshift,and HC clustering.Comparison shows that K-means clustering outperforms the other three algorithms in clustering performance,thus it is combined with regression analysis to evaluate the replies.Finally,the replies to public consultations are graded into 6 categories.The proposed model integrates machine learning including data mining and data analysis into “smart government affairs”,and provides a quantitative analysis tool to evaluate the performance of government affairs management.

  • 0 引言

  • “互联网+”及Web2.0时代的到来,不仅影响着公众的日常生活方式,而且还对政府与民众之间的交互模式带来了一场变革[1].当前,我国地方政府为推动电子政务建设,将互联网技术引入政务服务.为进一步提高公民参与水平及积极性、增强政府回应及时性与透明度,各地政府陆续打造并推出“智慧政务”平台以提高服务效率、增强服务质量.截至2020年6月,我国网民规模达9.40亿,相较上一年度,增加了8 500余万[2].越来越多的民众选择互联网作为其公共诉求、反映现实问题的重要载体[3].因此,政府与民众之间在互联网上的交流互动日益成为人们表达诉求、政府获悉民意的重要方式.

  • 学术界与地方政府重视“智慧政务”和政府与民众在网络环境下的交互行文.习近平总书记曾指出:“各级党政机关和领导干部要学会通过网络走群众路线······了解群众所思所愿,收集好想法好建议,积极回应网民关切、解疑释惑.”[4]2020年1月,江苏省人民政府办公厅积极履行法定主管部门职责,研究制定了《江苏省政府信息公开申请办理答复规范》[5],对答复文本从文本上作规定.然而,至今未有一个全国范围完整、统一的答复评价标准.

  • 鉴于此背景,为答复意见做质量评价对提升政务服务水平具有重要意义,有助于规范答复文本格式,促进答复内容更完整、更全面,也更利于民众理解.同时,对答复文本作分析也有助挖掘如今政务答复普遍存在的问题,促进政务服务优化,构建数字政府,打造“智慧政务”.孙宗锋等[6]以青岛市市长信箱数据为例,进行了网络情境下地方政府政民互动研究分析,探究了其中公民诉求表达与政府回应.姚水琼等[7]针对美国数字政府建设发展过程,研究其构建数据驱动战略体系,分析了我国构建数字政府的切入点.段哲哲等[8]采用德尔菲法建构领导信箱回应绩效指标体系,设计了针对66个政府网站领导信箱的实验,探究了互联网下的政府回应逻辑.王李[9]结合公共服务导向、信息公平公开、信息回复质量等一级指标建立了市长电子信箱回应性评估指标体系.王思迪等[10]运用多层神经网络算法分析市长信箱的文本分类,并对比朴素贝叶斯算法、随机森林算法以及决策树算法,建立了政府网站信箱自动传递方法.

  • 本文利用某市的群众问政留言记录,及相关部门对部分群众留言的答复意见,结合《2020年中国政府网站绩效评估报告》[11]中的内容,总结出5个答复意见特征,设计并定义了特征指标和评价指标,通过回归分析方法对答复意见类型进行分析.采用K-means聚类[12]、DBSCAN聚类算法[13]、Meanshift聚类算法[14]、HC聚类算法[15]4种聚类算法对答复意见等级进行分析,根据4种聚类算法效果对比结果,选用K-means聚类算法和回归分析的结果结合,对答复意见进行评价,将评价等级分为6类.本文通过对群众留言的答复意见数据进行挖掘,建立留言回复的评价模型.本文模型建立了政府答复意见数据与答复意见评价分析的有效关联,具有更高的准确性与科学性.

  • 1 政府答复意见特征提取

  • 本文所利用某市的群众问政留言记录,及相关部门对部分群众留言的答复意见,共2 816条,包括留言编号、留言用户、留言主题、留言时间、留言详情、答复意见、答复时间,具体数据(部分)如表1所示.

  • 本文根据所给数据,设计并提取出以下政府答复意见特征参数.

  • 1.1 答复意见相似性

  • 为描述答复意见与留言的相关程度,即主题的契合程度,要求答复意见描述内容与留言所描述的必须是同样一个事件,引入答复意见相似度概念.相似性用于描述答复与留言的文本相似程度,刻画答复内容的准确度.例如,答复主题与留言主题相去甚远,认为这是相似度低的、不可靠的答复.

  • 留言与回复属于长文本特性,通过TF-IDF算法[16]生成文本向量,依据关键词计算余弦相似度[17],通过式(1)计算文本相似程度:

  • S=i=1n xiyii=1n xi2i=1n yi2.
    (1)
  • 留言包括正文、标题,标题在一定程度上反映了留言主题,正文是留言的主要部分.故用留言标题与留言正文分别与答复计算文本进行相似度计算,根据计算公式:

  • Stotal =Stitle +Scontent
    (2)
  • 其中S title 为留言标题与答复计算文本的相似度,S content 为留言正文与答复计算文本的相似度,得到最终的相似度数值S total.

  • 留言有重述标题的情况存在,如“市民同志:你好!您反映的‘请加快提高民营幼儿园教师的待遇’的来信已收悉.现答复如下:”,之后才是正式的答复,因此,计算相似度时将此类不属于正式答复的内容去掉,否则影响相似度结果.

  • 1.2 答复意见完整性

  • 为提高可读性和可理解性,便于发帖人阅读,答复意见不能是毫无章程的、混乱的,如同书信、网络电子邮件,答复意见应该满足一套格式标准,这个标准使得答复意见清晰可阅.为评价答复文本格式的规范性,建立标准答复格式,引入答复意见完整性概念,完整性用于描述答复文本的规范程度.

  • 如同书信,答复文本格式应该尽可能规范.一般书信的完整格式应该有5个部分,包括称呼、正文、结尾、署名和日期.完整的群众意见答复应有:起首语、问候语、祝颂语、表示已收到市民留言的语句、署名、日期.

  • 综合考虑书信、网络回帖、政务答复特征,建立规范答复格式如图1示.

  • 表1 群众留言原始数据

  • Table1 Examples of public consultation

  • 图1 规范答复格式

  • Fig.1 A standardized reply format

  • 答复意见完整性计算流程如下:

  • 1) 计算起首语得分.将疑似起首语与标准起首语语料库比较,计算得到编辑操作次数,取单字符编辑操作次数最小值为n.因起首语语料文本长度均为5,若最小编辑次数大于3,改动过大,即认为不存在起首语,起首语分数置0.当最小编辑次数≤3时,如起首语为“同志”、“网友ASX000”,这是正常的情况,可计算该文本起首语与标准起首语料库相似度分数.起始语分数:

  • f(n)=n5, n30, n>3
    (3)
  • 2) 计算问候语得分.采用疑似问候语句搜索匹配,若存在标准问候语给1分,不存在记为0分.

  • 3) 计算祝颂语得分.疑似祝颂语中若存在“感谢”、“祝愿”等词语,则认为存在祝颂语,给1分,否则记为0分.

  • 4) 计算署名得分.设定署名长度阈值为3,记署名语句长度为l,对疑似署名语句进行长度检查,若长度大于等于署名长度阈值,则给1分.署名分数计算方法如下:

  • f(l)=1, l3,0, l<3.
    (4)
  • 5) 计算日期得分.针对疑似日期语句,若表达日期则给1分,无则0分.

  • 6) 对表示已收到市民信件,并明确分割出具体答复正文的答复进行评分.以最长公共子序列(Longest Common Subsequence,LCS)算法[18]将疑似语句与“已收到”标准语料库及答复内容作对比,即可得到此项分数:

  • fLmax=Lmax/Ls
    (5)
  • 其中L max 为各语料最长子序列长度最大值,L s 为标准语句长度.

  • 7) 计算总分.上述每项评分标准满分1分,总分为6分,进行求和并求得平均分记为该答复完整性分数.

  • 1.3 答复意见可解释性

  • 给出的答复意见必须可信度高、说服力强,在一定程度上符合常理,满足法律条例规范要求,这样的答复意见才能使发帖者信服、使大众满意,才能解决民众问题、满足大众诉求.为此,在评价体系中引入可解释性概念.可解释性用于描述答复的合理程度、说服力度.严密而合理的答复内容,可解释性强,使发帖者信服.

  • 本文对答复意见文本引用法律条文数情况进行了统计分析.答复中引用法律条文的情况有两种情况.第一种情况:用书名号括起文献名称.第二种情况:未出现书名,但引用了法律条例,如 “根据省厅文件精神”、“让学校根据调档函要求将档案寄至人力资源服务中心”.根据政务答复文本书面性较强的特点,引用文献时一般使用如下句式:“根据······规定”、“按照······原则”.构建“根据”的同义语料库,构建“规定”的同义语料库,对答复内容进行匹配,得到文献名序列,即为第二种情况的引用法律条文.两种情况的法律条文序列合并去重统计,即得到引用法律条文数.统计数据中的各答复引用的法律条文数统计如图2所示.

  • 图2 引用法律条文数统计

  • Fig.2 Statistics on the number of legal provisions cited

  • 其中,A类:法律条文数大于等于3部;

  • B类:法律条文数为2部;

  • C类:法律条文数为1部;

  • D类:未引用法律条文.

  • 可知,17%的答复引用了2部及2部以上法律条文,18%的答复引用了1部法律条文,其余65%未引用法律条文.

  • 针对政务服务特点,需要理论支撑或实地调查的情况有:所给信息有错误;所给信息不全导致无法回答;所提出的问题与实际情况不符.以上情况都应给出合理的解释.若无解释则认为此文本可解释性低.答复意见可解释性计算流程如下:

  • 1) 每条答复给基准分0.4分.

  • 2) 根据答复引用法律条文数目分布情况,制定给分规则如下,其中n 为引用法律条文数目:

  • f(n)=0, n=00.15, n=1,0.3 n3.
    (6)
  • 3) 判断是否存在实地勘察行为,存在实地调查行为,给0.3分,否则此项给0分.

  • 4) 该答复是否无法解决问题,若属于“无法解决发帖者问题”情况,且此时并未识别出理论支撑或给出存在实地调查行为,则认为此答复可解释性低,总分置0.

  • 1.4 答复意见及时性

  • 为及时解决民众问题,满足大众诉求,应在一定时间范围内及时答复发帖者,若拖延时间过长,民众心声得不到回复,则认为这是不好的情况.故在评价体系中引入及时性概念.及时性用于描述答复的时效,若答复时间与发帖时间的时间间隔较小,则认为此答复是及时的,在时间上是优秀的.以小时为单位,统计所有帖子的提问时间与答复时间的间隔时间差(不包括双休日).求时间差最大值t max 、最小值t min.答复意见及时性评分计算方法如下:

  • qi=titmax-tmin
    (7)
  • 其中qi 是第i 条答复意见的及时性评分,ti 是第i 条答复意见的答复时长,t max 是样本中答复意见的最大答复时长,t min 是样本中答复意见的最小答复时长.

  • 2 群众留言答复意见评价模型

  • 2.1 数据处理

  • 群众留言答复共有约2 816条原始数据,根据上节介绍的提取特征的方法,对原始文本数据的处理结果如表2所示.

  • 2.2 技术路线

  • 首先,提出并详细定义群众留言答复意见的评价指标,包括答复长度、相似性、完整性、可解释性和及时性.答复长度及相似性用于分析答复意见的类型;完整性、可解释性和及时性用于描述答复意见等级.

  • 接着,对答复意见类型进行分析,将答复长度与答复意见相似性作回归分析,回归线的下方为简洁可靠型,上方为繁杂离题型.采用K-means聚类、DBSCAN聚类算法、Meanshift聚类算法、HC聚类算法将答复意见分为3个等级,并进行对比.

  • 最后,将聚类算法和回归分析的结果结合,对答复意见进行评价,将评价等级分为6类,建立起完整的答复意见评价模型.

  • 2.3 答复意见类型的回归分析

  • 答复长度在一定程度上可以与答复相似性产生联系.单从文本长度而言,长文本相似度高的概率大于短文本的相似度,因为内容更丰富、匹配的概率更高.若答复文本短,而相似度高,则此答复是简明扼要的,可靠性高;答复文本长,而相似度低,那么答复是繁杂冗长的,可靠性低.因此,将答复意见风格分为两种,一类是“简洁可靠型”,另一类记为“繁杂离题型”.

  • 回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,通常用于定量地分析两个变量之间的相关性[19].因此,本文采用回归估计来定量分析答复长度与答复意见相似度之间的关系,以此判断答复意见类型.其公式为

  • J=β0+β1v^+ε
    (8)
  • 其中,J 是答复长度, v^是答复意见相似性,ε是回归误差,β0β1 是回归方程的参数.采用最小二乘法以准确地反映答复长度和答复意见相似性之间的关系,其离差平方和如下:

  • 表2 群众留言答复意见特征参数数据(部分)

  • Table2 Characteristic parameters of the replies to public consultations

  • Q(β)=i=1n (J-j)2
    (9)
  • Qβ'=minβ i=1n J-β0+β1v^2
    (10)
  • 为了使式(10)得到的结果最小,求解偏微分方程组:

  • Q(β)βiβi=β'=0,i=1,2,,n,
    (11)
  • βi=i=1n (v-v^)(J-j)/i=1n (v-v^)2
    (12)
  • β0=J--β1v^
    (13)
  • 根据表3中的数据,使用最小二乘法进行分析,得到回归直线,进而得到群众留言答复意见的两种答复类型.

  • 利用表3中的数据,运行结果如图3所示.其中纵截距为0.502,斜率为1.432,即得到的回归直线为

  • y=1.423x+0.502.
    (14)
  • 根据答复意见相似性与文本长度的关系可知,位于回归直线上方的答复意见风格是简洁可靠型,位于回归直线下方的是繁杂离题型.

  • 表3 归一化文本长度和答复意见相似性(部分)

  • Table3 Normalized length and similarity of the replies to public consultations

  • 图3 回归分析结果

  • Fig.3 Regression analysis result

  • 2.4 答复意见等级的聚类分析

  • 由于训练样本是无标签的数据,答复意见的等级分类结果未知,且答复意见复杂性很高,如果使用手动标注分类则具有太强的主观性,故选用聚类这种无监督学习的方式来对数据进行分类.本文将答复意见等级分为3类,所以将聚类数目确定为3.

  • 聚类算法的种类有很多,为了确定哪种聚类算法更适合本次研究的数据,采用基于划分的K-means算法进行聚类,并与DBSCAN聚类算法、Meanshift聚类算法、HC聚类算法进行对比.

  • 1) K-means聚类算法

  • K-means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.具体算法过程如下:

  • 1) 从N 个答复意见特征数据中随机选取K个样本作为初始的聚类中心;

  • 2) 分别计算每个样本到各聚类中心的距离,将对象分配到最近的类簇中;

  • 3) 所有对象分配到所属类簇后,重新计算K 个类簇的聚类中心;

  • 4) 与3)中计算得到的K个聚类中心比较,如果聚类中心发生变化,转2),否则转5);

  • 5) 当聚类中心不发生变化时停止计算,并输出聚类结果.

  • 根据表2中提取的答复意见特征,包括答复意见完整性、答复意见可解释性、答复意见及时性,将这3个特征进行K-means聚类分析,得到3个等级,给出的K-means聚类分布如图4所示.其中定义3个等级,等级1、2、3分别对应优良中,则图中蓝色为等级1,绿色为等级2,红色为等级3.

  • 2) 聚类效果对比

  • 由于无明确的类别指标,所以采用Calinski-Harabaz指数和轮廓指数这两种指标来对聚类效果进行评价.

  • a) Calinski-Harabaz指数

  • 这个评价指标计算简单直接,得到的分数值越大则说明聚类效果越好.其公式如下:

  • s(k)=trBkm-ktrWkk-1
    (15)
  • 其中,m 为训练样本数,k 为类别数,B k 为类别之间的协方差矩阵,W k 为类别内部数据的协方差矩阵,tr(·) 为矩阵的迹.换言之,类别内部数据的协方差越小越好,类别之间的协方差越大越好,这样的Calinski-Harabasz分数越高.

  • 图4 K-means聚类分析结果

  • Fig.4 K-means clustering analysis result

  • b) 轮廓系数

  • 轮廓系数(Silhouette Coefficient)适用于实际类别信息未知的情况.对于单个样本,设a 是与它同类别中其他样本的平均距离,b 是与它距离最近的不同类别中样本的平均距离,则对于这个样本,它的轮廓系数为

  • cs=b-amax(a,b)
    (16)
  • 对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值.轮廓系数的取值范围是[-1,1],同类别样本距离越近且不同类别样本距离越远,轮廓系数的数值越大.对比结果如表4所示.

  • 表4 聚类效果评价

  • Table4 Evaluation of clustering effect

  • 从Calinski-Harabasz指数来看,K-means聚类明显大于其余聚类算法,说明其类别内部数据的协方差更小,且类别之间协方差更大,使得答复优良程度的分类更加清晰.另外,从轮廓系数来说,虽然DBCAN算法比K-means算法稍大,但DBSCAN的Calinski-Harabasz指数过低,这算是不理想且不符合预期的.除DBSCAN聚类算法以外,K-means算法的轮廓系数大于其他聚类算法,说明其同类别样本距离更近且不同类别样本距离更远,聚类结果更为准确.因此,由这两个指数的对比可知,对于答复意见,K-means聚类算法较为理想.

  • 2.5 结果分析

  • 综合考虑答复意等级与答复意见类型2个指标,将答复优良等级分为6个等级.如表5所示.

  • 表5 答复意见评价等级

  • Table5 Evaluation grades of the replies to public consultations

  • 对2 816则答复进行数据预处理,进行答复意见特征提取,再采用回归分析得到答复风格,得到答复风格回归直线.其中:回归直线上的为简洁可靠型,有1 456则,占总文本的52%;回归直线下方的为繁杂离题型,有1 360则,占总文本的48%.

  • 由图5可知,繁杂离题型答复几乎占据了总文本数的一半,政务工作者答复时应尽量简洁凝练,为民众给出较为核心的解决办法.

  • 图5 答复风格统计

  • Fig.5 Reply style statistics

  • 采用K-means算法进行分析,得到答复意见优良程度的3个等级.其中:等级1有答复1 066则,占总答复的37.855%;等级2有答复915则,占总答复的32.493%;等级3有答复833则,占总答复的29.581%.

  • 由图6可知,答复意见等级分布均匀,但仍有近1/3的答复文本是较不规范的,政务工作人员应重视此问题,对答复质量做出改进.

  • 综合分析以上2个评级指标,分析2 816则答复的优良程度.将“简洁可靠型+等级1”评价为优秀;“简洁可靠型+等级2”评价为较优秀;“简洁可靠型+等级3”评价为良好;“繁杂离题型+等级1”评价为较良好;“繁杂离题型+等级2”评价为较一般;“繁杂离题型+等级3”评价为一般.评价结果如图7所示.

  • 图6 K-means划分等级结果统计

  • Fig.6 Reply grades according to K-means clustering

  • 图7 评价结果统计

  • Fig.7 Reply evaluation result

  • 由图7可知:优秀答复有357则,占总文本数12.677%;较优秀答复有711则,占总文本数25.249%;良好答复有388则,占总文本数13.778%;较良好答复有527则,占总文本数18.714%;较一般答复有432则,占总文本数15.34%;一般答复有401则,占总文本数14.24%.综上,可见评价结果是均匀的、良好的,故评价体系是可靠的.政务工作人员应加强对答复质量的重视程度,给出更行之有效、更规范、更优秀的答复意见,完善政务服务工作.

  • 3 结论

  • 本文利用数据挖掘技术提取并量化了群众答复意见的特征参数,并对2 816条群众答复意见,186万字文本数据进行处理,得到能够初步表征群众答复意见的数据.用回归分析分析群众答复意见类型,结合聚类分析对群众答复意见进行等级划分,建立了群众答复意见评价模型.根据模型的评价结果,地方政府可以有针对性地提高政府的服务水平.进一步可以通过分析海量数据,提取出更多有效的群众答复意见特征,从而建立更加实时高效的检测模型,完善评估群众答复意见的完整体系.

  • 参考文献

    • [1] 马宝君,张楠,谭棋天.基于政民互动大数据的公共服务效能影响因素分析[J].中国行政管理,2018(10):109-115;MA Baojun,ZHANG Nan,TAN Qitian.The determinants analysis of public service efficiency based on G2C big data[J].Chinese Public Administration,2018(10):109-115

    • [2] 中国互联网络信息中心.中国互联网络发展状况统计报告[R/OL].[2020-09-29].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/P020210205509651950014.pdf;China Internet Network Information Center.The 46th China statistical report on internet development[R/OL].[2020-09-29].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/P020210205509651950014.pdf

    • [3] 李锋,孟天广.策略性政治互动:网民政治话语运用与政府回应模式[J].武汉大学学报(人文科学版),2016,69(5):119-129;LI Feng,MENG Tianguang.The strategic political interaction:political discourses of netizens and government responsiveness in cyber space[J].Wuhan University Journal(Humanity Sciences),2016,69(5):119-129

    • [4] 习近平总书记在网络安全和信息化工作座谈会上的讲话[EB/OL].[2021-05-06].http://www.xinhuanet.com/zgjx/2016-04/26/c_135312437.htm

    • [5] 江苏省人民政府办公厅.江苏省政府信息公开申请办理答复规范[EB/OL].[2021-05-06].http://www.jiangsu.gov.cn/art/2020/1/17/art_46144_8945275.html

    • [6] 孙宗锋,赵兴华.网络情境下地方政府政民互动研究:基于青岛市市长信箱的大数据分析[J].电子政务,2019(5):12-26;ZHAO Zongfeng,ZHAO Xinghua.Research on interaction between local governments and civilians in the internet context:big data analysis based on the mailbox of the mayor of Qingdao[J].E-Governmemt,2019(5):12-26

    • [7] 姚水琼,齐胤植.美国数字政府建设的实践研究与经验借鉴[J].治理研究,2019,35(6):60-65;YAO Shuiqiong,QI Yinzhi.Practical research and experience reference of the construction of digital government in the United States[J].Governance Studies,2019,35(6):60-65

    • [8] 段哲哲,刘江.网络问政的政府回应逻辑:公开承诺压力与选择性回应[J].浙江工商大学学报,2019,33(4):79-89;DUAN Zhezhe,LIU Jiang.Government responsive logic in network politics:public commitment pressure and selective response[J].Journal of Zhejiang Gongshang University,2019,33(4):79-89

    • [9] 王李.政府门户网站市长电子信箱回应性评估及提升对策研究[D].湘潭:湘潭大学,2017;WANG Li.The research on responsive evaluation and promotion countermeasures of mayor's mailbox of government portal website[D].Xiangtan:Xiangtan University,2017

    • [10] 王思迪,胡广伟,杨巳煜,等.基于文本分类的政府网站信箱自动转递方法研究[J].数据分析与知识发现,2020,4(6):51-59;WANG Sidi,HU Guangwei,YANG Siyu,et al.Automatic transferring government website e-mails based on text classification[J].Data Analysis and Knowledge Discovery,2020,4(6):51-59

    • [11] 清华大学公共管理学院,清华大学国家治理研究院.2020年中国政府网站绩效评估报告[EB/OL].[2021-05-06].http://www.sppm.tsinghua.edu.cn/xwzx/lbxw/26efe489754943fa01767501d05a00c5.html

    • [12] 李卓轩,林凯迪,郭建华,等.基于车联网数据的运输车辆安全评价模型[J].南通大学学报(自然科学版),2020,19(1):26-32,47;LI Zhuoxuan,LIN Kaidi,GUO Jianhua,et al.Transportation vehicle safety evaluation model based on vehicle network data[J].Journal of Nantong University(Natural Science Edition),2020,19(1):26-32,47

    • [13] 马帅,王腾蛟,唐世渭,等.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095;MA Shuai,WANG Tengjiao,TANG Shiwei,et al.A fast clustering algorithm based on reference and density[J].Journal of Software,2003,14(6):1089-1095

    • [14] 田隽,厉丹,肖理庆.基于Meanshift聚类-Bhattacharya观测似然度修正的联合概率数据关联改进算法[J].计算机应用,2014,34(5):1279-1282;TIAN Jun,LI Dan,XIAO Liqing.Improved joint probabilistic data association algorithm based on Meanshift clustering and Bhattacharya likelihood modification[J].Journal of Computer Applications,2014,34(5):1279-1282

    • [15] 贾俊芳.基于层次聚类的主动学习方法:HC_AL[J].计算机应用,2011,31(8):2134-2137;JIA Junfang.HC_AL:new active learning method based on hierarchical clustering[J].Journal of Computer Applications,2011,31(8):2134-2137

    • [16] 黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864;HUANG Chenghui,YIN Jian,HOU Fang.A text similarity measurement combining word semantic information with TF-IDF method[J].Chinese Journal of Computers,2011,34(5):856-864

    • [17] 张振亚,王进,程红梅,等.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163;ZHANG Zhenya,WANG Jin,CHENG Hongmei,et al.An approach for spatial index of text information based on cosine similarity[J].Computer Science,2005,32(9):160-163

    • [18] 李健豪,章品正.相似单词查找方法研究与实现[J].微计算机信息,2012,28(9):417-418,461;LI Jianhao,ZHANG Pinzheng.Research and application on similarity word searching method[J].Microcomputer Information,2012,28(9):417-418,461

    • [19] 周志华,王珏.机器学习及其应用2009[M].北京:清华大学出版社,2009;ZHOU Zhihua,WANG Jue.Machine learning and its application 2009[M].Beijing:Tsinghua University Press,2009

  • 参考文献

    • [1] 马宝君,张楠,谭棋天.基于政民互动大数据的公共服务效能影响因素分析[J].中国行政管理,2018(10):109-115;MA Baojun,ZHANG Nan,TAN Qitian.The determinants analysis of public service efficiency based on G2C big data[J].Chinese Public Administration,2018(10):109-115

    • [2] 中国互联网络信息中心.中国互联网络发展状况统计报告[R/OL].[2020-09-29].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/P020210205509651950014.pdf;China Internet Network Information Center.The 46th China statistical report on internet development[R/OL].[2020-09-29].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/P020210205509651950014.pdf

    • [3] 李锋,孟天广.策略性政治互动:网民政治话语运用与政府回应模式[J].武汉大学学报(人文科学版),2016,69(5):119-129;LI Feng,MENG Tianguang.The strategic political interaction:political discourses of netizens and government responsiveness in cyber space[J].Wuhan University Journal(Humanity Sciences),2016,69(5):119-129

    • [4] 习近平总书记在网络安全和信息化工作座谈会上的讲话[EB/OL].[2021-05-06].http://www.xinhuanet.com/zgjx/2016-04/26/c_135312437.htm

    • [5] 江苏省人民政府办公厅.江苏省政府信息公开申请办理答复规范[EB/OL].[2021-05-06].http://www.jiangsu.gov.cn/art/2020/1/17/art_46144_8945275.html

    • [6] 孙宗锋,赵兴华.网络情境下地方政府政民互动研究:基于青岛市市长信箱的大数据分析[J].电子政务,2019(5):12-26;ZHAO Zongfeng,ZHAO Xinghua.Research on interaction between local governments and civilians in the internet context:big data analysis based on the mailbox of the mayor of Qingdao[J].E-Governmemt,2019(5):12-26

    • [7] 姚水琼,齐胤植.美国数字政府建设的实践研究与经验借鉴[J].治理研究,2019,35(6):60-65;YAO Shuiqiong,QI Yinzhi.Practical research and experience reference of the construction of digital government in the United States[J].Governance Studies,2019,35(6):60-65

    • [8] 段哲哲,刘江.网络问政的政府回应逻辑:公开承诺压力与选择性回应[J].浙江工商大学学报,2019,33(4):79-89;DUAN Zhezhe,LIU Jiang.Government responsive logic in network politics:public commitment pressure and selective response[J].Journal of Zhejiang Gongshang University,2019,33(4):79-89

    • [9] 王李.政府门户网站市长电子信箱回应性评估及提升对策研究[D].湘潭:湘潭大学,2017;WANG Li.The research on responsive evaluation and promotion countermeasures of mayor's mailbox of government portal website[D].Xiangtan:Xiangtan University,2017

    • [10] 王思迪,胡广伟,杨巳煜,等.基于文本分类的政府网站信箱自动转递方法研究[J].数据分析与知识发现,2020,4(6):51-59;WANG Sidi,HU Guangwei,YANG Siyu,et al.Automatic transferring government website e-mails based on text classification[J].Data Analysis and Knowledge Discovery,2020,4(6):51-59

    • [11] 清华大学公共管理学院,清华大学国家治理研究院.2020年中国政府网站绩效评估报告[EB/OL].[2021-05-06].http://www.sppm.tsinghua.edu.cn/xwzx/lbxw/26efe489754943fa01767501d05a00c5.html

    • [12] 李卓轩,林凯迪,郭建华,等.基于车联网数据的运输车辆安全评价模型[J].南通大学学报(自然科学版),2020,19(1):26-32,47;LI Zhuoxuan,LIN Kaidi,GUO Jianhua,et al.Transportation vehicle safety evaluation model based on vehicle network data[J].Journal of Nantong University(Natural Science Edition),2020,19(1):26-32,47

    • [13] 马帅,王腾蛟,唐世渭,等.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095;MA Shuai,WANG Tengjiao,TANG Shiwei,et al.A fast clustering algorithm based on reference and density[J].Journal of Software,2003,14(6):1089-1095

    • [14] 田隽,厉丹,肖理庆.基于Meanshift聚类-Bhattacharya观测似然度修正的联合概率数据关联改进算法[J].计算机应用,2014,34(5):1279-1282;TIAN Jun,LI Dan,XIAO Liqing.Improved joint probabilistic data association algorithm based on Meanshift clustering and Bhattacharya likelihood modification[J].Journal of Computer Applications,2014,34(5):1279-1282

    • [15] 贾俊芳.基于层次聚类的主动学习方法:HC_AL[J].计算机应用,2011,31(8):2134-2137;JIA Junfang.HC_AL:new active learning method based on hierarchical clustering[J].Journal of Computer Applications,2011,31(8):2134-2137

    • [16] 黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864;HUANG Chenghui,YIN Jian,HOU Fang.A text similarity measurement combining word semantic information with TF-IDF method[J].Chinese Journal of Computers,2011,34(5):856-864

    • [17] 张振亚,王进,程红梅,等.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163;ZHANG Zhenya,WANG Jin,CHENG Hongmei,et al.An approach for spatial index of text information based on cosine similarity[J].Computer Science,2005,32(9):160-163

    • [18] 李健豪,章品正.相似单词查找方法研究与实现[J].微计算机信息,2012,28(9):417-418,461;LI Jianhao,ZHANG Pinzheng.Research and application on similarity word searching method[J].Microcomputer Information,2012,28(9):417-418,461

    • [19] 周志华,王珏.机器学习及其应用2009[M].北京:清华大学出版社,2009;ZHOU Zhihua,WANG Jue.Machine learning and its application 2009[M].Beijing:Tsinghua University Press,2009

  • 地址:江苏省南京市宁六路219号    邮编:210044

    联系电话:025-58731025    E-mail:nxdxb@nuist.edu.cn

    南京信息工程大学学报 ® 2024 版权所有  技术支持:北京勤云科技发展有限公司