将代码库或网站一键转成单个文件供应LLM 这些名目你应该知道!

在LLM运行开发中,一个关键义务是构建高品质的揭示,由于揭示的品质间接影响LLM的性能体现。而其中至关关键的局部是高低文背景消息,RAG中的检索目标也正是为结构这些背景素材。

如今,咱们将关注一个衍生疑问:如何将复杂结构的内容仓库(如代码库、网站等)转换为LLM友好的格局,以便后续经常使用。

以代码库为例,开发者们广泛面临以下痛点:

在这一畛域,有一个代表性名目repo2txt[1],它可以将GitHub中的Repo转换为格局化的文本文件,繁难LLM了解并作为揭示经常使用。

repo2txt的外围个性包括:

访问repo2txt.simplebasedomain.com[2]即可间接经常使用这个工具。用户可以选用要蕴含的文件或目录,而后生成格局化的文本文件。值得一提的是,它在阅读器端间接运转,拉取代码到本地,不触及后端交互,从而保证了代码隐衷。

此外,还有一些同类名目值得关注,如files-to-prompt[3]和code2prompt[4]。

关于更泛化的场景,如复杂网站,保留成一个文件雷同繁琐,而libcrawler是一个很好的处置打算,它是一个文档爬虫和转换器,能爬取文档网站并将页面转换为繁多的Markdown文档。与之相似的还有更早的SingleFile[5],对LLM和日常上班都有很大协助。

参考资料

[1]repo2txt:

[2]repo2txt.simplebasedomain.com:

[3]files-to-prompt:

[4]code2prompt:

[5]SingleFile:

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: