百度、西交大大数据竞赛创数据挖掘之最 冠军算

  10月16日,百度与西安交通大学联合主办的大数据竞赛颁奖典礼在西交大隆重举行。本次赛事吸引了全国数十所一流大学的近900位选手组队参赛,经过5个月的激烈比拼,冠军团队最终凭借其精准清晰的程序结构以及优质完整的算法,经过评审成功摘得桂冠。亚、季军则由六支不同高校的参赛团队选手摘得。

  西安交通大学校长王树国(左一)、百度副总裁朱光(右一)为冠军团队代表颁奖

  百度、西安交通大学大数据竞赛评委、百度知识图谱产品数据建设负责人牛正雨对本届大赛第一名获奖团队给予了高度的评价:“他们的数据分析系统对训练集观察细致,代码逻辑清晰、设计合理,最终取得了非常好的效果。”同时他还从技术层面做出了解读:第一名团队算法利用哈希算法对原始语料进行了压缩;并且扩充了知识库中的事实三元组;并且尝试对无关系实体进行过滤、以及采用半监督方法预测实体级别的关系三元组,取得了比较好的效果。

  本次大数据竞赛的技术难点主要集中在数据挖掘和挖掘三元组知识,同时,还包括自然语言技术,机器学习等方向。牛正雨称“脱颖而出的人很有水平,他的东西被百度相当认可,反映了他们的水平。”据了解,冠军选手的数据分析系统在细节的考量上已经接近百度自身的数据分析系统。“作为一个学生来说考虑这些已经很不错了”牛正雨如是说。目前,百度方面已经开始与冠军团队接洽,其算法有望被百度采纳,直接应用到百度产品之中。

  百度西安交通大学大数据竞赛是百度与西安交通大学大数据人才创新平台计划的一个组成部分,也是其中最早得到实践的一个子项目。竞赛依托百度提供的十亿数据集,以“根据任意给定的人物(实体),自动构建该实体的关系网络”为考题,要求选手在涉及到50个核心人物相关信息和网页数据集合中建立一套数据分析模型,编织人与人之间的关系图谱。此次竞赛的数据集创下了数据挖掘、自然语言处理类赛事的最高纪录。

TAG标签: 数据挖掘算法
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。