GitHub分享了Topic功能的开发技术

责任编辑:editor007

作者:IT168

2017-08-09 21:49:26

摘自:IT168

近日,GitHub分享了其开发Topics功能的技术,这个新推出的功能是在GitHub存储库之间创建基于主题的连接的标签,并让用户通过类型,技术等来探索项目。点击感兴趣的主题以查找相关的存储库,将主题添加到您的存储库将有助于其他用户发现您的项目。

近日,GitHub分享了其开发Topics功能的技术,这个新推出的功能是在GitHub存储库之间创建基于主题的连接的标签,并让用户通过类型,技术等来探索项目。

点击感兴趣的主题以查找相关的存储库,将主题添加到您的存储库将有助于其他用户发现您的项目。

Topics是GitHub在实际应用中的第一个机器学习项目,同时也是GitHub即将在未来几个月内推出的一系列机器学习功能的排头兵。其中,公共库提供了一种向GitHub添加便签的快捷方便的方法,而公共库中的建议都来自于最近的数据科学工作。

GitHub的Topics包括名称、描述和README,提供了功能、用例和读者的阅读习惯。数据科学家和数据挖掘专家Kavita Ganesan在博客中写道:他们为提取主题开发了一个框架—repo-topix,这个框架可以从用户提供的human-readable text中去学习。

Repo-topix做了三件事情:

1.整合了来自数百万个其他存储库的数据,把自然语言文本生成候选主题;

2.从一组候选主题中选择最佳主题

3.找出主题的相似之处和关系

据GitHub表示,Repo-topix框架能够发现任何公共存储库的新主题,使用轻量级方法,可以轻松扩展。Ganesan写道:“我们近期的计划是评估Topics的建议用法以及手动创建的Topics,希望通过不断的改进达到用户的期望。一些被拒绝的主题我们也会通过Repo-topix记录为stop,或者作为关键字筛选模型的反面例子”

Ganesan还写道,为了消除数据依赖和隐私保护,GitHub还计划探索Topics的私有库和GitHub Enterprise版。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号