联系我们:010-88559646

  老师群

170086145

  学生群

179326524

209318323

215410234

客服电话:010-88559646

面向政府文件的标签化技术

时间:2020-07-21        来 源:中国软件杯

  第九届中国软件杯大赛--B组赛题(第二批赛题)


赛题名称: 面向政府文件的标签化技术

组类:B 高职组

赛题简介:介绍整个赛题的实现目标、实用价值、涉及技术和整体要求

标签技术发展迅速,电商网站、社交软件都通过给人或者物打标签的方式,来精确营销,提高运营效率。同样,在政府领域,政府各种文件、政策日益增多,对政策文件进行标签化处理,对于提高文件的使用便利,提高政府的职能效率日益重要。

 

赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景

在实际业务中,利用标签提取技术一方面能提高政策文件的使用效率,有利于政府部门减少人工量,快速的分类整理,提高分类使用的准确率,同时也有利于公众对于公开的政策文件的检索利用。另一方面结合用户画像为公众侧提供政策推荐,使公众能够及时了解到自己感兴趣的最新政策。

给定的训练数据是通过采集政府网站的政府文件,包括分类标签、政策标题和政策正文三个字段。通过自行设计标签算法,接受输入参数,返回输出结果。

接受输入的参数有两个:分别是政策标题和政策正文。

输出的结果为政策的分类标签,包括一级分类标签和二级分类标签,格式如下“财政、金融、审计\税务”

基本功能

输出标签的准确率不低于85%

非功能性

  
执行效率:程序从输入到输出的执行时间不超过10s

  

实现条件:开发环境、实验平台、开发语言、数据库、编译器、涉及硬件实现条件

开发环境:pycharm或其他IDE

开发语言:Java或Python

服务器操作系统:linux或者windows

运行环境:如使用python,需使用python3.6以上版本 

测试数据或平台:提供给参赛者的测试环境和测试数据。

数据下载:

训练数据.xlsx


验证数据.xlsx

 

开发所需设备及设备指标需求说明

开发设备:市场上常规可见的PC机即可
 

文档及其他要求

代码规范可读性强、文档说明清晰

不能使用各种在线api接口服务

可以使用开源的算法以及工具

评审要点

1、代码的规范性以及技术文档的完整性

2、预测结果的准确率

3、代码的执行效率

其中,预测结果的准确率为主要的评审要点,占主要评分占比。

初赛作品提交要求

 

 

1、提供源文件、说明使用文档以及算法的实现原理说明,如果使用开源算法,请注明。

2、根据设计的算法将验证数据的label列填充,提交验证数据的结果文件。


出题企业:浪潮云服务集团有限公司

答疑老师:邢老师  QQ:1276299023





上一篇:上一篇:离港前端软件升级系统
下一篇:下一篇:敬请期待...

主办单位

工业和信息化部

教育部

江苏省人民政府

承办单位

中国电子信息产业发展研究院

江苏省工业和信息化厅

江苏省教育厅

教育部高等学校计算机类专业教学指导委员会

信息技术新工科产学研联盟

执行单位

中国信息化周报

南京江北新区产业技术研创园

江苏软件产业人才发展基金会

南京市软件和信息服务集群发展促进机构

南京航空航天大学

关于我们

客服电话:010-88559646

邮编:100048

联系地址:北京市海淀区紫竹院路66号赛迪大厦18层

网站备案/许可证号:京ICP备05039896号-10     京公网安备 11010802020860号