摘要:为满足高校师生对科研资源复杂的个性化服务需求,设计了高校科研资源个性化服务系统,简称个性化科研服务系统(PSRSS,personalizedscientificresearchservicesystem)。全面分析了高校科研用户的个性化科研资源服务需求,设计了基于数据层、融合多种推荐策略的推荐计算层、应用呈现层的多引擎融合推荐系统架构;基于不同推荐场景,比较了不同的推荐算法并对选择的算法进行了针对性优化;探讨了用户模型和科研资源模型的设计,实现了基于资源热度、项目内容相似度、相似用户协同过滤的Top推荐。系统提升了高校师生获取科研资源的体验,为高校科研资源个性化服务系统建设提供了新思路。
关键词:融合推荐;个性化;推荐系统;高校科研
高校科研已步入“大数据时代”,各种科研管理系统、科研服务平台收集、储存了海量的科研数据和资源文档[1]。在信息需求越来越个性化的今天,各行业都尝试开发并应用基于各种算法和模型的个性化推荐系统。Amazon通过在网站上使用推荐系统,对用户的浏览、购买行为进行分析,进而对曾经在该网站有过浏览或购买行为的用户进行个性化推荐。据VentureBeat的统计,采用个性化推荐技术,使得亚马逊网站的销售额提高了以上,个性化推荐技术的应用也越来越广[23]。
高校师生在科研活动中检索科研资源的时间,占整个科研用时的50%以上,相较其他类型用户,个性化需求也更多样化、更复杂[4]。目前,师生获取科研数据和科研资源,主要还是使用基于关键字的信息查询检索方式,且国内各类科研管理系统和科研数据服务平台的功能还较单一,无法满足科研用户个性化数据服务需求[5。
造成一方面科研资源信息过载,面对海量科研数据用户却束手无策,不能方便、快捷地获得需要的科研资源;另一方面,用户要清楚知道自己的资源需求并能明确表示出需求,才能使用搜索引擎查找想要的资源。现有的资源检索或管理系统不能主动把用户可能感兴趣的科研资源推荐给用户,使得宝贵的科研资源得不到充分利用。在大数据背景下,以某外国语大学为例,针对高校师生复杂多样的个性化科研资源需求,探索基于融合推荐的个性化科研资源服务系统的设计。
1相关工作
1.1科研资源个性化服务需求
通过对高校科研用户进行问卷调查,总结出师生们主要的个性化资源服务需求为:通过输入自己的研究课题或者论文标题,获得类似的科研项目资源,为自己的科研提供有用的帮助;获得当前本专业相关研究方向的热度值较高的科研资源、科研成果,进而了解当前学科的主要研究方向;了解学科同行当前所从事的研究课题、研究动态,特别是能获得一些自己都不曾想到但又感兴趣的相关资源,为自己的研究找寻参考的方向和可以借鉴的思想。
1.2融合推荐系统架构
任何单一的推荐策略都不能满足高校用户复杂多样的个性化需求,因此为PSRSS设计了融合多种推荐策略的推荐系统架构,由数据层、融合推荐层、应用呈现层组成。数据层:由基础数据和对数据的处理构成。基础数据包括用户信息数据、科研资源数据、用户行为等源数据,科研用户数据主要来自于包含用户个人基本信息的人事系统数据库;科研资源数据主要来自于科研、教改管理系统的用户科研成果数据如科研论文、专著、专利、研究报告、科研项目等;用户行为数据是用户在使用PSRSS或其他科研系统时的行为日志数据。
数据处理是从业务数据库中抽取所需数据并进行转换、清洗、标准化、融和等预处理,为推荐引擎提供所需数据。融合推荐层:该层是个性化服务系统的核心,在数据层提供的数据基础上,构建科研用户特征、科研资源项目特征、用户与项目、用户与用户、项目与项目间的关系特征。采用热度推荐、基于UserCF推荐和使用IFTDF方法的基于项目内容的推荐算法,构建系统融合推荐引擎,以满足高校科研用户复杂多样的个性化服务需求;该层还包括对系统召回项目进行排序和过滤的模块[910]。应用呈现层:根据应用需要,通过不同的形式向用户呈现推荐的结果。
2科研资源大数据处理
PSRSS要存储和处理的数据量都是级,同时基于对数据分布式计算和高吞吐量的处理要求,系统采用Apach的Hadoop大数据技术框架对科研资源大数据进行存储和处理,具体处理过程:建立数据列表:根据系统需求建立需要的数据列表包括数据的属性、数据之间的关系等。建立原始数据存储(RDS,rawdatastores)和转换后的数据存储(TDS,transformeddatastrores):
物理上通过在Hive上建立两个数据库来实现,使得所有数据都被分布存储到HDFS上。数据抽取:RDS作为具体业务系统和PSRSS之间的过渡区,它可以避免对源系统的侵入和性能影响,并为细节数据查询提供支持。使用Sqoop把各业务系统相关数据抽取到RDS,使用Flume从日志文件中获取用户从外网使用科研资源的数据。数据转换与装载:建立数据列表到RDS的映射,根据融合推荐系统的需要,使用HiveQL脚本对数据进行转换和处理,包括对数据进行去重、补全、查错纠错、标准化等处理,将数据从RDS装载到TDS中。
完成首次的数据抽取、转换、装载(ETL,Extract、Transform、Load)过程后,还需要根据系统需要定期执行数据ETL过程,比如按照每天进行一次自动化的增量数据ETL过程。 科研用户模型和资源项目模型的构建建立科研用户和科研资源项目之间的关联,实现个性化推荐服务,推荐系统要经过构建科研用户模型和科研资源模型、根据用户特征运用不同的推荐算法对资源项目进行召回计算、向用户呈现科研资源推荐列表这个重要步骤[1112。科研用户模型和科研资源模型决定着PSRSS的输出。
2.1构建科研用户模型
在PSRSS的用户模型中包括用户基本信息和用户的资源兴趣模型,即用户在使用系统和资源时的一些行为信息,PSRSS要向用户推荐他们感兴趣的各种科研资源,不仅要记录用户对资源项目的具体行为数据,还要记录用户使用PSRSS的行为数据,如用户浏览某个资源项目内容的具体时长,这些行为数据将用于项目热度和用户兴趣模型的更新。由于高校科研用户在使用个性化科研服务系统时,往往只专注于所需资源项目的内容本身,他们会查询、浏览阅读、下载获取,不太会对相应项目进行主动评价,很难获得用户对资源项目的显式行为记录。
因此,采用隐式的方式,记录并利用用户使用PSRSS和资源数据库的行为日志,建立并更新用户模型。本系统用户模型使用20世纪70年代由GeraldSalton等提出的VSM(向量空间模型,VectorSpaceModel)表示,该模型最初用于处理文档,通过识别并获取文档的个关键字特征以表示文档,分别为每个特征赋予合适的权值,进而构造一个表示该文档的特征向量。
当文档被表示为文档空间的向量后,就能计算不同文档向量间的相似度并据此度量文档间的相似性。在PSRSS中,当用户对某个科研资源项目做出某种行为时,其行为值为,这些行为反映了用户对资源项目的不同兴趣度,赋予每种行为不同的权值,的取值为0~1且权值总和为。
2.2构建科研资源模型
采用基于资源项目内容主题模型的资源推荐策略,通过给能反映资源项目主要内容特征的主题计算权值向量,从而使用该向量计算得到资源项目间的相似度,可以比较精确地向用户推荐其可能感兴趣的科研资源。高校的主要科研资源类型有科研论文、研究报告、著作、纵向和横向课题、专利、各种比赛成果等。考虑到进行基于科研资源项目内容推荐的需要,特别是推荐算法中引入项目时间因素的改进设计,在对科研资源进行建模时设计了包括资源项目ID、资源建立时间、资源长度、资源类型、资源内容关键字特征作为科研资源模型的元素。
1)type为科研资源项目的类型,在系统冷启动阶段向用户做热度推荐时,将根据用户的专业、研究方向、资源类型提供初始的资源项目推荐,比如向英语学院研究英语国家文化的教师推荐相应类型的论文或其他资源。
2)duration是资源项目在系统中发布后存在的时间,反应了资源项目的新旧程度,在推荐过程中,我们要考虑时间因素对用户兴趣度的影响。
3)length为资源项目内容长度,目前主要的资源项目,其内容形式主要以文本为主,用户阅读浏览的时间和项目内容的长度,共同决定了用户对该资源项目的兴趣度。
4)为资源项目标题关键字列表,在进行基于项目内容的推荐时,使用TFIDF方法从资源标题计算得到该资源项目的关键字列表。
3算法选择与优化
3.1算法选择个性化推荐算法是个性化科研服务的基础,主要的推荐算法有基于内容(contentbased)的推荐、基于协同过滤(collaborativefiltering)的推荐、基于关联规则(associationrulebased)的推荐、基于效用(utilitybased)的推荐、基于知识(knowledgebased)的推荐和组合(hybrid)推荐等。基于内容的推荐是在项目内容信息上做出推荐,不需要用户对项目进行显式评价操作,可通过使用机器学习的方法从描述内容特征的事项中,获取用户的兴趣特征并找到与用户感兴趣的相似内容向用户推荐,可通过增加特征维度的方法来提高该算法的推荐精度。
基于内容的推荐,不需要大量的用户项目评分记录,可用于新建立的资源项目的推荐,解决项目冷启动问题。协同过滤推荐算法包括基于用户的协同过滤(UserCF)和基于项目的协同过滤(ItemCF),是一种基于近邻的推荐算法[15]。在电商商品和图书馆资源推荐时多采用ItemCF,因为用户在找寻这类物品时的兴趣是比较稳定的,因此可以向其推荐与当前浏览物品相似的商品。
在PSRSS中,当要向用户推荐有关本专业的同行当前关注的科研资源时,科研资源的时效性、专业性和热度,比根据用户的系统使用日志学习得到的兴趣更有用。基于用户的协同过滤推荐策略还能向用户推荐可能让其惊喜的资源项目。根据PSRSS的应用场景需要,融合推荐引擎在系统冷启动阶段,采用基于项目热度的推荐算法,向用户推荐相关专业和研究方向的各类热度值较高的科研资源;在用户有了较多的系统使用行为记录后,选用基于用户的协同过滤推荐算法,向用户推荐有相似兴趣的本学科专业的同行感兴趣的科研资源;当用户收藏、阅读或下载了某项科研资源时,选用基于内容的推荐算法,向用户推荐与其当前感兴趣的资源相似的科研资源。
3.2算法优化
3.2.1项目热度值计算
用户刚开始使用PSRSS时,系统是无法向用户提供个性化服务的,面临用户冷启动问题,此时采用基于项目热度的推荐算法,对科研资源基于专业学科、研究方向等基本信息进行划分,然后按照项目热度对科研资源进行排序,将热度值较高项目推荐给感兴趣的用户。
当一个资源项目录入系统数据库后,就为其初始化一个热度分,项目也就同时进入了推荐候选列表,不同科研资源的初始热度分是不一样的,可以根据资源类别并按照作者的专业水平如专业职称等条件,赋予不同资源不同的初始热度值。随着资源项目不断被用户阅读、收藏、下载,对应的被用户行为影响的热度不断增加。还有影响资源热度的其他因素,他们会使资源热度降低,比如时间因素。
3.2.2项目向量化
PSRSS的主要推荐内容是非结构化的科研资源文档,不能直接将其映射到向量空间,这些资源的标题包含了关于该资源的核心关键信息,能反映资源的主要内容特征,用户也主要是利用各个资源项目的标题信息来对下一步的动作如点开阅读、收藏、下载或者直接略过,做出决定的。利用TFIDF算法从项目标题提取出项目关键词,将关键词的TFIDF值作为该关键词的权值,将包含项目核心特征信息的项目标题映射为表示项目的特征向量,用以计算项目之间的相似度[1617],进行基于内容的推荐。
4科研资源的Top推荐
这个阶段就是在优化根据应用场景需要选择的推荐算法基础上,计算用户对还没有使用过的科研资源的兴趣度,基于用户兴趣度和其他的资源特征,对待推荐资源列表按降序进行排序,将列表前面的项资源推荐给用户。
4.1用户冷启动阶段
这个阶段,根据项目的热度值为用户进行推荐,使用式计算项目热度值。可以根据作者专业职称级别,为不同用户设置不同的权值如:中级及以下作者权值为0.6,副高级作者权值为0.8,正高级及以上作者权值为。根据=0.2×收藏次数+0.4×阅读次数+0.4×下载次数,计算用户行为对项目分值的更新。
系统启动阶段,可以综合考虑作者特征和资源特征为每类资源赋予不同的初始热度值,系统运行后,可以结合每类资源的平均热度值计算新建项目初始热度值。在此基础上,结合项目作者的权值使用式便可计算出每个资源项目的当前热度值,根据资源类别对每类资源按热度降序排序,将与用户专业和研究方向相关的排名靠前的项各类资源推荐给用户。
4.2相似资源项目推荐
文中使用Python的jieba库作为分词工具,对资源文档标题进行分词处理,在此基础上去除停用词,然后使用TFIDF方法计算单词的TFIDF值,构造项目标题关键词向量。当用户对某个资源项目进行了阅读、下载等感兴趣的操作,系统便根据当前项目的关键词向量,使用余弦相似度公式(11),计算其与其他该类项目的相似度,然后依据按项目相似度降序排序的结果,向用户做Top推荐。
5系统效果评估
针对系统的融合推荐引擎,使用推荐准确率作为评价系统推荐效果的评估指标,主要以用户使用PSRSS系统产生并存储在用户资源项目评分表userresitemscore数据表的数据作为实验数据,这些数据是用户对科研资源的各种操作记录如内容浏览、下载、收藏。该表有用户数206,资源项目数124,表项即用户对资源项目操作数35215,将科研资源数据的80%用作训练集,20%用作测试集并计算系统融合推荐引擎的推荐准确率。
针对基于项目热度和基于项目内容的推荐。结果显示,在推荐列表长度为时有较好准确率,随着的增大,准确率逐渐下降。当较小时,基于项目热度的推荐效果更好,这反映出科研用户对当前热点科研项目的关注度较高。当继续增大后,基于内容的推荐效果更好,反映出此时科研的学科专业性及用户对与自己当前研究内容相关的科研资源的关注度,对推荐效果有更大的影响。
6结语
文中调研了高校科研用户的科研资源个性化服务需求,设计了融合推荐系统架构。根据应用场景选择合适的推荐算法并进行了针对性的优化,考虑阅读时间长短对用户兴趣度的影响,加入阅读时间影响因子以修正用户兴趣度值的计算;建立资源项目到用户的倒查表,解决稀疏数据的计算效率问题;在进行基于内容的推荐时,利用科研用户的专业、研究方向等特征进行分类、排序,提高推荐的准确性;利用用户权值和时间影响因子计算项目热度值,并解决了系统冷启动问题。结合多种推荐策略,构建了融合推荐引擎,提高了推荐效率和推荐准确率,为个性化科研资源服务系统的建设提供了新的参考。本研究还可进一步挖掘高校科研用户的大数据资源服务需求,优化系统架构,提高用户推荐满意度;为其他系统应用设计API接口,拓展向师生主动推荐科研资源的渠道。
参考文献:
覃福钿,李晶.大数据对高校教学研的影响与探索[J].计算机工程与科学,2019,41(S1):238241.QinFD,LiJ.Influenceandexplorationofbigdataonuniversityteachingandresearch[J].ComputerEngineering&Science,2019,41(S1):238241.(inChinese)
LindenSmithYorkJ.Amazon.comrecommendations:itemtoitemcollaborativefiltering[J].IEEEInternetComputing2003,):7680.
C.A.GomezUribeandN.HuntTheNetflixRecommendersystem:algorithms,businessvalue,andinnovation[J].ACMTransactionsonManagementInformationSystems2016,):19.
陈媛媛.高校科研数据管理服务能力研究[J].情报杂志,2020,39(6):203207.ChenYY.Onresearchdatamanagementserviceabilityofcollegesanduniversities[J].JournalofIntelligence,2020,39(6):203207.(inChinese)
刘兹恒,曾丽莹.我国高校科研数据管理与共享平台调研与比较分析[J].情报资料工作,2017(6):9095.LiuZH,ZengLY.InvestigationandcomparativeanalysisofscientificresearchdatamanagementandsharingplatformofuniversitiesinChina[J].InformationandDocumentationServices,2017(6):9095.(inChinese)
作者:刘冬邻