近日,李国徽教授团队杨中博士后论文“Universal Set Similarity Search via Multi-Task Representation Learning”被国际数据库顶级会议ICDE2025接收为长文。ICDE是数据库领域的三大顶级国际会议之一,属CCF A类会议。
图‑ 1 基于Box Embedding集合通用表示过程示意图
集合(sets)相似性搜索是数据处理中的一项基础操作,在数据清理与整合、信息检索、剽窃检查、基因检测等不同领域有着广泛的应用。最常用集合相似性度量包括重叠相似性(Overlap)、杰卡德相似性(Jaccard)、余弦相似性(Cosine)和骰子相似性(Dice)等。传统方法难以同时解决不同相似性度量和查询类型下的搜索问题,传统方法通常是针对特定的相似性设计的,并为了适应不同相似性而进行扩展改造,导致不同相似性度量的有效性存在明显偏差,为了解决这个问题,文章首先研究了一种基于盒嵌入(Box embedding)的多任务表示学习方法(MTB),如图-1所示。
图‑ 2 基于通用表示Usearch在多种相似度和多个数据集上均能保证较高精确度
其次研究基于该表示的通用的集合相似性搜索算法(USearch),这是一种通用搜索框架,可容纳各种集合相似度和查询问题,实验表明该方法的通用性和有效性俱佳,尤其在较大的数据集合上,并能保证较高的数据查询准确度,部分实验结果如图-2所示。