在消费级GPU上奔跑的瘦子 WordLlama

2024-11-15

David Miller示意该模型的指标很明白：弥合尖端 AI 钻研和实践运行之间的差距。他意识到，许多现有 NLP模型须要少量的计算资源，并且通常局限于专有系统，从而限度了它们的可访问性。作为回应，WordLlama被设计为既轻量级又高效，使更宽泛的用户能够在不就义品质的状况下将高性能 NLP 集成到他们的上班流程中。

WordLlama一个开源、极速、轻量级（16MB） NLP 工具包，它是一种用于NLP和单词嵌入的适用型模型，它相似于GloVe、Word2Vec或FastText。它首先从最先进的LLM（例如 LLaMA3 70B）中提取Token Embedding的编码表，并且训练一个小型的、无高低文的通用Embedding模型。

它在基准测试中优于GloVe 300d等盛行的单词模型，同时大小显著更小（自动模型为16MB vs >2GB）。关键的是它能依据实践消费的须要灵敏截断Token的嵌入维度，有点相似“俄罗斯套娃形式”。最大的模型（1024维）可以截断为 64、128、256 或 512维度经常使用。

它允许二进制嵌入模型以放慢计算速度，在CPU上方也是能够极速运转，WordLlama 十分适宜轻量级 NLP 义务，例如训练 sklearn 分类器、口头语义婚配、反双数据删除、排名和聚类。它十分适宜创立 LLM 输入评价器。由于它的紧凑设计，任何人可以在短短几个小时外在消费类GPU 上训练模型。它的速度和多配置性使其成为探求性剖析和各类运行的绝佳助手。

上图WL在64/128/256/512/1024等不同维度在不同义务上与其余同类的对比。多言语，可以跨各种言语启动训练和部署。它解决多种言语的才干扩展了它在客户服务、内容生成和许多其余须要多配置言语配置畛域的运行后劲。上方为它的实例代码，笨重便用。

from wordllama import WordLlama# 加载自动的 WordLlama 模型wl = WordLlama.load()# 计算两个句子之间的相似度similarity_score = wl.similarity("我去了车那里", "我去了当铺")print(similarity_score)# 输入: 0.06641249096796882# 依据与查问的相似度对文档启动排名query = "我去了车那里"candidates = ["我去了公园", "我去了商店", "我去了卡车", "我去了车辆"]ranked_docs = wl.rank(query, candidates)print(ranked_docs)# 输入:# [#('我去了车辆', 0.7441646856486314),#('我去了卡车', 0.2832691551894259),#('我去了商店', 0.19732814982305436),#('我去了公园', 0.15101404519322253)# ]# 其余推理方法# 含糊去重wl.deduplicate(candidates, threshold=0.8)# 经常使用 kmeans/kmeans++ 初始化启动标签wl.cluster(docs, k=5, max_iteratinotallow=100, tolerance=1e-4)# 依据查问过滤候选项wl.filter(query, candidates, threshold=0.3)# 依据查问前往前k 个字符串wl.topk(query, candidates, k=3)

本文转载自，作者：

<<T

ICLR 2024>>

在消费级GPU上奔跑的 瘦子 WordLlama

您可能还会对下面的文章感兴趣：

随便看看

在消费级GPU上奔跑的瘦子 WordLlama