V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
laijh
V2EX  ›  Local LLM

个人电脑,适合跑哪个本地大模型?

  •  
  •   laijh · 2025 年 6 月 17 日 · 4310 次点击
    这是一个创建于 209 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自己电脑配置:mac mini m2 16g

    通过 ollama ,安装了

    • qwen3:8b
    • qwen3:4b
    • gemma3:4b
    • mistral:7b

    目的是为了优化公众号文章标题:

    import re
    from langchain_ollama import ChatOllama
    from langchain_core.prompts import ChatPromptTemplate
    from langchain_core.output_parsers import StrOutputParser
    
    # 初始化 Ollama 模型
    llm = ChatOllama(
        model="gemma3:4b",
    )
    
    # 定义提示模板
    prompt_template = ChatPromptTemplate.from_template(
        """
        假设你是个具有丰富的爆文经验的微信公众号作者,现提供的"{question}"文章标题,优化标题,只输出最优的那个,结果不需要解释。
        """
    )
    
    # 创建处理链
    chain = prompt_template | llm | StrOutputParser()
    
    # 示例问题
    question = "女人离我远点"
    
    # 调用链并获取纯答案
    answer = chain.invoke({"question": question})
    
    clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip()
    
    # 输出结果
    print(clean_text)
    
    

    分别用了上面的几个模型,跑下来,都比较慢,有没有其他性价比比较高的?

    23 条回复    2025-09-05 17:49:03 +08:00
    highkay
        1
    highkay  
       2025 年 6 月 17 日
    你没有显卡肯定慢啊……,而且我觉得感觉你这个是任务的质量大于速度的,从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ,同级别的模型输出的 token 越多,质量越好,一般来讲。
    rogerer
        2
    rogerer  
       2025 年 6 月 17 日
    @highkay 据说苹果线上就有服务是跑在 mac mini 上
    DendimoN
        3
    DendimoN  
       2025 年 6 月 17 日
    1. mlx 格式的快一些
    2. 你用的 ollama 是不是只会使用 cpu ?看一下 metal llama.cpp 这个项目,或者直接用 lmstudio 起服务试一下。
    wfhtqp
        4
    wfhtqp  
       2025 年 6 月 17 日
    ollama 怎么用的? docker 的话有没有挂载 gpu 进去?
    yoreee
        5
    yoreee  
       2025 年 6 月 17 日
    没有必要本地部署,效果差
    Reficul
        6
    Reficul  
       2025 年 6 月 17 日
    7b 的模型太小,效果不太理想。
    cF06myaQ57WHKMBv
        7
    cF06myaQ57WHKMBv  
       2025 年 6 月 17 日
    本地部署,大的跑不动,小的弱智,还不如直接调用 API 方便,
    lcingOnTheCake
        8
    lcingOnTheCake  
       2025 年 6 月 17 日
    要跑的大模型的话,最起码有 4090D ,比如你安装的 qwen3:8b ,不使用量化版本的话,要吃 20GB 显存,普通显卡根本吃不消
    yuuluu
        9
    yuuluu  
       2025 年 6 月 17 日
    个人电脑不太适合跑本地大模型.

    对于优化公众号标题这个需求, 应该没有本地化的必要吧...
    uprit
        10
    uprit  
       2025 年 6 月 17 日
    你用 M2 肯定慢啊,带宽才 100G ,跑 Q4 量化模型 7B 的也就 20 多 t/s ,速度勉强能接受,能力一塌糊涂。
    你想快,要么就换带宽更高的,比如 M1 ultra ,800G 带宽。或者换 N 卡平台,比如 5070ti ,差不多 900G 带宽
    要么就得用更小的模型,比如 1.5B 的,快是快了,但能干的活儿不多,只能处理非常非常简单的任务,你这种优化标题的任务就别想了。
    再说了,你真要用这种 7B 以下的模型,有些官方的 API 都是免费的,你折腾这个干嘛。
    wu67
        11
    wu67  
       2025 年 6 月 17 日
    没必要, 本地跑‘小’模型, 跑出来的有点像弱智+复读机
    laijh
        12
    laijh  
    OP
       2025 年 6 月 17 日
    感谢大佬意见,已改用 deepseek 的线上模型
    ly001
        13
    ly001  
       2025 年 6 月 17 日
    chatbox + api 随便用,简直不要太方便
    nailuoGG
        14
    nailuoGG  
       2025 年 6 月 17 日
    Ollama 已经支持用 meta api 来加速了: https://github.com/ollama/ollama/blob/main/docs/gpu.md

    速度慢更可能是内存不够
    goodhellonice
        15
    goodhellonice  
       2025 年 6 月 17 日
    本来我也准备部署本地的。。后来发现远不如在线的。。。现在主要用 gemini grok kimi
    loganovo
        16
    loganovo  
       2025 年 6 月 17 日
    本地只能玩玩, 过了新鲜感后, 再也不想点开
    fredweili
        17
    fredweili  
       2025 年 6 月 18 日
    这个配置能跑 8b ,4b 就更能了,用流式模式
    testliyu
        18
    testliyu  
       2025 年 6 月 18 日
    @wfhtqp cpu 部署的吧
    huizai2022
        19
    huizai2022  
       2025 年 6 月 18 日
    用硅基流动吧 免费的 8b 模型
    coefu
        20
    coefu  
       2025 年 6 月 19 日
    pc 而言,除了 mac studio m3 ultra 512 之外,就没有能用的了。
    mili100
        21
    mili100  
       2025 年 6 月 24 日
    内存足够的话也许试试看 Qwen3:30B-A3B ,激活参数仅 3B ,品质接近 32B (虽然对于 16G ,iQ2 UD 量化可能都有些捉襟见肘)
    kevin249
        22
    kevin249  
       2025 年 8 月 19 日
    evo-x2 幻 X2025 之类的 AI MAX 395 的主机
    SSang
        23
    SSang  
       2025 年 9 月 5 日
    看看 ggml 的模型: https://huggingface.co/collections/ggml-org

    ggml-org/Qwen3-0.6B-GGUF
    ggml-org/Qwen2.5-Coder-0.5B-Q8_0-GGUF
    ggml-org/gemma-3-270m-GGUF
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5381 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 07:46 · PVG 15:46 · LAX 23:46 · JFK 02:46
    ♥ Do have faith in what you're doing.