当前位置: 首页 -> 学院新闻 -> 正文

李国徽教授团队解决集合相似度查询中多种相似性度量的适用性问题

2024-12-16  点击:[]

近日,李国徽教授团队杨中博士后论文“Universal Set Similarity Search via Multi-Task Representation Learning”被国际数据库顶级会议ICDE2025接收为长文。ICDE是数据库领域的三大顶级国际会议之一,属CCF A类会议。

图‑ 1 基于Box Embedding集合通用表示过程示意图

集合(sets)相似性搜索是数据处理中的一项基础操作,在数据清理与整合、信息检索、剽窃检查、基因检测等不同领域有着广泛的应用。最常用集合相似性度量包括重叠相似性(Overlap)、杰卡德相似性(Jaccard)、余弦相似性(Cosine)和骰子相似性(Dice)等。传统方法难以同时解决不同相似性度量和查询类型下的搜索问题,传统方法通常是针对特定的相似性设计的,并为了适应不同相似性而进行扩展改造,导致不同相似性度量的有效性存在明显偏差,为了解决这个问题,文章首先研究了一种基于盒嵌入(Box embedding)的多任务表示学习方法(MTB),如图-1所示。

图‑ 2 基于通用表示Usearch在多种相似度和多个数据集上均能保证较高精确度

其次研究基于该表示的通用的集合相似性搜索算法(USearch),这是一种通用搜索框架,可容纳各种集合相似度和查询问题,实验表明该方法的通用性和有效性俱佳,尤其在较大的数据集合上,并能保证较高的数据查询准确度,部分实验结果如图-2所示。

上一条:03级校友、石墨文档创始人吴洁回母校演讲并到访学院 下一条:人民日报报道我院成立全国首个飞桨班,推动创新链、产业链、人才链深度融合

地址: 湖北省武汉市洪山区珞喻路1037号 

           华中科技大学东校区恩明楼软件学院1011室

Copyright 2023 华中科技大学软件学院 All Rights Reserved

联系我们:

Email: sse@hust.edu.cn 

电话: 027-87792255

院长信箱:ssedean@hust.edu.cn

书记信箱:sseshuji@hust.edu.cn