llamafile 使用指南 - 一键运行的开源AI大模型
摘自:https://www.bingal.com/posts/ai-llamafile-usage/ llamafile 是什么?llamafile 是一种AI大模型部署(或者说运行)的方案, 与其他方案相比,llamafile的独特之处在于它可以将模型和运行环境打包成一个独立的可执行文件,从而简化了部署流程。用户只需下载并执行该文件,无需安装运行环境或依赖库,这大大提高了使用大型语言模型的便捷性。这种创新方案有助于降低使用门槛,使更多人能够轻松部署和使用大型语言模型。 llamafile 怎么用?举个运行 Yi-6B-Chat 的例子目前已发布了多个模型,可以在这里下: huggingface.co modelscope.cn 为了更方便体验,本示例选了 Yi-6B-Chat.Q4_0.llamafile 这个模型, 只有 3.45GB, CPU 运行也只需要 4G 内存即可。模型地址:Yi-6B-Chat.Q4_0.llamafile 1、第一步,下载模型 Yi-6B-Chat.Q4_0.llamafile 2、第二步,运行 linux 或 mac...
用 Ollama 轻松玩转本地大模型
摘自:https://sspai.com/post/85193 前言Ollama 一个简明易用的本地大模型运行框架。 随着围绕着 Ollama 的生态走向前台,更多用户也可以方便地在自己电脑上玩转大模型了。 快速上手Ollama【win(preview) / mac / linux】 下载页面:https://ollama.com/download Docker也可以直接使用其官方镜像。 docker模式下,指令可直接在docker exec -it ollama下运行 当你运行 ollama --version 命令成功查询到版本时,表示 Ollama 的安装已经顺利完成,接下来便可以用 pull 命令从在线模型库下载模型来玩了。 以中文微调过的 Llama2-Chinese 7B 模型为例,下述命令会下载接近 4GB 的 4-bit 量化模型文件,需要至少 8GB 的内存进行推理,推荐配备 16GB 以流畅运行。 1% ollama pull llama2-chinese 下载完成后,使用 run...