近日,GitHub分享了其开发Topics功能的技术,这个新推出的功能是在GitHub存储库之间创建基于主题的连接的标签,并让用户通过类型,技术等来探索项目。
点击感兴趣的主题以查找相关的存储库,将主题添加到您的存储库将有助于其他用户发现您的项目。
Topics是GitHub在实际应用中的第一个机器学习项目,同时也是GitHub即将在未来几个月内推出的一系列机器学习功能的排头兵。其中,公共库提供了一种向GitHub添加便签的快捷方便的方法,而公共库中的建议都来自于最近的数据科学工作。
GitHub的Topics包括名称、描述和README,提供了功能、用例和读者的阅读习惯。数据科学家和数据挖掘专家Kavita Ganesan在博客中写道:他们为提取主题开发了一个框架—repo-topix,这个框架可以从用户提供的human-readable text中去学习。
Repo-topix做了三件事情:
1.整合了来自数百万个其他存储库的数据,把自然语言文本生成候选主题;
2.从一组候选主题中选择最佳主题
3.找出主题的相似之处和关系
据GitHub表示,Repo-topix框架能够发现任何公共存储库的新主题,使用轻量级方法,可以轻松扩展。Ganesan写道:“我们近期的计划是评估Topics的建议用法以及手动创建的Topics,希望通过不断的改进达到用户的期望。一些被拒绝的主题我们也会通过Repo-topix记录为stop,或者作为关键字筛选模型的反面例子”
Ganesan还写道,为了消除数据依赖和隐私保护,GitHub还计划探索Topics的私有库和GitHub Enterprise版。