关于搜狗

科技情报大数据挖掘与服务平台

发布日期:2016年01月14日

推荐国家技术发明奖项目公示

项目名称:科技情报大数据挖掘与服务平台

推荐单位:中国人工智能学会

项目简介:

科技数据记载着科学技术的发展和进步,对其进行深入挖掘,可以及时了解和掌握科技动态,加快科技创新速度,提高科技生产力,让学术成果真正服务于经济发展和社会进步,为决策部门提供综合性战略性情报服务。这对于提高我国互联网科学管理水平,促进互联网经济发展,推动数据挖掘、信息检索、情报分析以及网络科学等相关学科的发展,占领下一代信息技术和知识服务的科技制高点具有重要的战略意义。

推荐项目针对互联网环境下科技信息资源规模大、分布及异构等特征,率先提出并研发了以知识和研究者为核心的异构网络深度挖掘与服务平台,实现了亿级节点的大规模科技知识图谱的建立;创新性的提出面向科技创新的群体智能挖掘方法,为理解网络群体行为的形成和动态演化奠定了理论基础。项目主要发明及创新点如下:

1)针对大规模网络资源中信息获取及知识图谱创建的难题,发明了多维依赖关系信息抽取方法和基于最小风险的语义集成方法,大大提高了语义信息的抽取精度,实现了亿级节点的大规模科技知识图谱的建立;

2)针对社会网络个体用户行为的不确定性及数据稀疏性,发明了面向学术社会网络中科技创新的群体智能挖掘方法,系统性的给出了网络结构和网络用户行为之间的关联关系,为理解网络群体行为的形成和动态演化奠定理论基础;

3)针对异构对象的复杂依赖关系和网络的不确定性,发明了面向科技知识网络的异构对象统一建模方法,将异构对象映射至低维隐空间进行排序学习,解决了知识网络中的异构对象排序难题,实现了异构对象全局权威度的高效计算;

4)集合项目主要科研成果,研发了具有完全自主知识产权的新一代研究人员社会网络的学术信息挖掘和搜索系统ArnetMiner(后更名为AMiner),提供面向学术、专利和科技新闻的搜索、语义分析、科技成果评价及趋势分析等功能。

项目获得发明专利授权12项,取得软件著作权6项;发表相关学术论文112篇,Google Scholar 引用超过5800 次。项目相关应用系统AMiner自2006 年上线以来已经产生了显著的学术影响和社会效益。目前已为全球220 个国家/地区700 多万独立IP 访问提供服务,发表在SIGKDD’08上介绍关键技术的代表论文Google Scholar 引用531次,在该会近8年发表的1508篇论文中排名第7。项目获得中国人工智能学会科技进步一等奖、中国电子学会自然科学二等奖、北京市自然科学三等奖。项目研究成果还在微软必应搜索、搜狗、亿赞普、点通、华为、IBM、通用、美孚、腾讯等企业的合作项目中得到推广应用,近三年相关产品新增销售额超过5亿元。

客观评价:

1 对项目的评价

1)2013年8月29日,教育部对“研究者社会网络搜索与挖掘系统”进行了成果鉴定。鉴定委员会认为:项目成果完善了Web语义集成、主题模型、网络排序以及社会网络搜索与挖掘的理论体系和技术方法……被认为是世界上最有代表性的学术社会网络分析系统之一……鉴定委员会一致认为,项目核心技术达到国际先进、国内领先水平。

2)2013年10月,项目“研究者社会网络搜索与挖掘系统(ArnetMiner)”在与国内近40项研究成果的竞争中胜出,获得了中国人工智能学会第三届吴文俊人工智能科学技术进步一等奖(仅一名一等奖)。

2 对ArnetMiner系统评价

1)2008年,介绍“研究者社会网络搜索与挖掘系统”框架及核心技术的文章“ArnetMiner: Extraction and Mining of Academic Social Networks”发表在数据挖掘领域的国际顶级会议SIGKDD‘2008上。论文Google Scholar 引用次数540次。

2)UIUC大学的知名教授Dan Roth在Coling上关于专家发现的论文使用Arnetminer的结果作为评测标准。

3)著名研究机构DERI资深研究员P. Buitelaar等人在论文中提到:ArnetMiner是当前著名的学术研究者社会网络搜索工具。

4)南安普顿大学Tiropanis等人撰写的综述中多次提到ArnetMiner系统,评价ArnetMiner是“…搜索与匹配方面最有代表性的工具…”

3 对项目核心技术评价

1)创新点1:信息集成工具RiMOM在国际本体映射竞赛OAEI中连续6年夺得9项子任务第一的好成绩;在2008年 OAEI结果分析报告中,RiMOM被认为是“Top Matching System”。

2)创新点2:关于大规模社交网络中影响力分析的论文发表在SIGKDD’2009上,在ACM的Digital Library中已经下载3792次,在该会议近六年(2008-2013)所有1208篇文章中下载次数排名第一。

3)创新点3:在异构网络排序学习模型的研究中,将用户影响力分析应用在交叉领域协作关系推荐,论文发表在SIGKDD’2012上,被评审认为是“This is a very nice paper which proposes a novel approach for cross-domain collaboration recommendation”,论文获得最佳Poster奖。

推广应用情况:

项目研发成果AMiner系统自2006年上线运行以来,至今已经过8次重大改版升级,吸引了来自220个国家/地区700万独立IP的访问,为公众免费提供了超过200万次数据/代码/工具下载,收集了超过1亿5千万用户日志。Google Analytic分析工具最新结果显示:来自于google搜索的日均访问量超过5000次,其中访问国家排名第一的是美国。

AMiner系统除了为公众提供免费信息服务之外,同时其还开放了服务端口,为全球最大出版社Elsevier和SIGKDD’10-13, PKDD’11, ICDM’11-13等20余个国际会议提供论文-审稿人自动指派和专家搜索服务。

在企业合作方面,项目相关研究技术成果在国家政府部门及国内外企事业单位获得了广泛的应用,近三年产生的直接经济效益超过5亿元。下表列出了部分企业应用情况:

cmd-markdown-logo

cmd-markdown-logo

cmd-markdown-logo

cmd-markdown-logo

cmd-markdown-logo

完成人合作关系说明:

项目完成人唐杰(排名1),李涓子(排名2),许斌(排名6)同为清华大学计算机系知识工程实验室老师,自2006年起就一直保持长期合作关系。在推荐项目中合作发表过多篇论文(ZhifengGu, Juanzi Li, Jie Tang, Bin Xu, and Ruobo Huang. Verification of Web Service Conversations Specified in WSCL. In Proceedings of 31st Annual IEEE International Computer Software and Applications Conference (COMPSAC'07). pp. 432-437.),合作申请过发明专利(ZL200710177066.8)。

项目完成人张阔(排名3)2003年-2008年在清华大学知识工程实验攻读博士学位,之后加入搜狗科技有限公司,任研发总监,期间与唐杰,李涓子有多次项目合作,并合作申请专利(ZL200710178687.8)及发表论文(Zhigang Wang, Juanzi Li, Shuangjie Li, Mingyang Li, Jie Tang, Kuo Zhang, and Kun Zhang. Cross-lingual Knowledge Validation Based Taxonomy Derivation from Heterogeneous Online Wikis. In Proceedings of the 28th AAAI Conference on Artificial Intelligence (AAAI'14). pp. 180-186.)。

项目完成人张静(排名4)是唐杰,李涓子共同培养的博士生,在推荐项目中一起合作发表过多篇论文(Jing Zhang, Jie Tang, Juanzi Li, Yang Liu, and Chunxiao Xing. Who Influenced You? Predicting Retweet via Social Influence Locality. ACM Transactions on Knowledge Discovery from Data (TKDD), Volume 9, Issue 3, 2015, Article No. 25. ),申请过发明专利(ZL200710117719.3)。

项目完成人茹立云(排名5)曾就读于清华大学智能技术与系统国家重点实验室,现任搜狗科技有限公司副总裁,期间与唐杰,李涓子有过多次合作,在推荐项目中与唐杰有合作论文。(Bo Wang, Zhaonan Li, Jie Tang, Kuo Zhang, Songcan Chen, and LiyunRu. Learning to Advertise: How many ads are enough? In Proceedings of the 15th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD'11). pp. 506-518.)。