第 1 章 AI 大语言模型 (LLM)
你可能会想:「AI 对话到底能帮我做什么?我从来没写过代码,能用吗?」
放心,这一章就是写给像你一样的普通人看的。大语言模型说白了,就是一个「特别会聊天的超级助手」——你可以用大白话问它问题、让它帮你写邮件、总结长文章、甚至一起想点子。下面我们会用最直白的话解释它是什么、怎么选、以及手把手教你在每个工具里点哪里、输入什么,一步步跟着做就能会。
一、本类概览与工作原理
1.1 用一句话理解「大语言模型」
你可以把大语言模型(LLM)想象成一个读过很多很多书、而且特别会聊天的助手:它不光能回答问题,还能根据你的要求写一段文字、列一个清单、甚至帮你改作文、写简单的代码。你用什么话问,它就尽量用你能懂的话答;你让它「简短点」或「正式一点」,它也会跟着调整。
1.2 它能帮你解决哪些实际问题?
日常里很多「费脑子」的事,都可以先丢给 AI 试试:
不知道怎么写
请假邮件、活动通知、朋友圈文案——说「帮我写一封……的邮件」,几秒钟就有一版,改改就能用。
文章太长看不完
把长文或 PDF 丢给它,「用三句话总结」「列出五个要点」,省下不少阅读时间。
想点子、列方案
「周末团建有什么好主意」「产品名字起几个备选」——随时帮你头脑风暴。
查东西、解释概念
「什么是 XX」「YY 和 ZZ 有啥区别」——用对话问,比自己在网上翻来翻去快很多。
不同产品有的更擅长写长文,有的更擅长写代码,有的支持上传图片或文件一起分析。后面同类工具对比会帮你按需求选一个最合适的。
1.3 原理一句话(好奇再读)
技术上说,大语言模型是在海量文本上「学过」的 AI:它学会了语言里的规律和常识,所以能根据你输入的话预测下一句最可能是什么,于是就有了「在跟你对话」的感觉。你不需要懂这些也能用好它;只要记住:你问得越清楚,它答得越靠谱。
1.4 谁适合用?需要会什么?
零基础、非专业完全没问题。绝大多数产品都是「打开网页或 App → 输入框里打字 → 等回复」,跟发微信差不多。只有当你打算把 AI 接到自己的网站、或自己部署开源模型时,才需要一点技术背景。
二、同类工具对比
市面上的大模型很多,不用全试一遍。下面先给你一个「懒人速查」,再看详细表。
2.1 主流模型对比表
下表按综合能力由强到弱排序(同一梯队内顺序不分先后),方便你一眼看出「第一梯队是谁、谁更偏性价比」。多数模型有多个版本(如 GPT 有 5.2 Pro / 5.3-Codex),在「典型版本」列做了标注;价格与最新版本以各官网为准,产品名可点击直达。
| 梯队 | 模型 / 产品 | 典型版本 | 厂商 | 上下文 | 多模态 | 开源 | 免费层 | 国内可用 | 主要优势 | 适用场景 |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | ChatGPT / GPT | 5.2 Pro(主力)、5.3-Codex(编程/Agent);GPT-6 规划中 | OpenAI | 长 | 图/音 | 否 | 有(限) | 需网络 | 推理与综合领先、响应快 | 通用对话、复杂任务 |
| 1 | Claude | Opus 4.6、Sonnet 4.6;1M 上下文(beta) | Anthropic | 超长/1M | 图/文档 | 否 | 有(限) | 需网络 | 编程与长文档 SOTA、Excel/PPT | 写代码、长文、办公 |
| 1 | Gemini | 3 Pro、3.1 Pro;1M 上下文、Deep Think | 超长/1M | 图/音/视频 | 否 | 有(限) | 需网络 | 知识广、性价比高、多模态 | 长文档、多模态、Google 用户 | |
| 2 | Grok | Grok 4、Grok 4 Heavy;扩展推理、实时 | xAI | 长 | 图/文档 | 否 | 有(限) | 需网络 | 实时信息、与 X 整合、风格可选 | 通用、追热点、刷 X |
| 2 | DeepSeek | V3.2、V3.2-Speciale;成本约 GPT 1/30 | DeepSeek | 长 | 图 | 否 | 有(限) | 是 | 近前沿、极低 API 价、代码强 | 省钱、写代码、批量 |
| 2 | 豆包 | 2.0(Seed-2.0);Seedance 2.0 视频、Seedream 5.0 图 | 字节跳动 | 长 | 图/音/视频 | 否 | 有(限) | 是 | 国内日活领先、多模态原生 | 国内、手机、短视频 |
| 3 | Kimi | 超长上下文系列(约 20 万字级)、Agent | 月之暗面 | 超长 | 文档 | 否 | 有(限) | 是 | 超长文本、办公流 | 长文阅读、办公、研究 |
| 3 | 通义千问 | Qwen 3.5-Plus 等;MoE、开源生态多 | 阿里巴巴 | 长 | 图/音 | 可选 | 有(限) | 是 | 多模态、电商、B 端、开源 | 电商、B 端、自建 |
| 3 | 智谱 GLM | GLM-5;Agent 长工程、部分榜单第一 | 智谱 AI | 长 | 图 | 否 | 有(限) | 是 | 企业 Agent、复杂系统 | 企业、工程、B 端 |
| 3 | 文心一言 | 多版本;RAG 2.0、知识增强 | 百度 | 长 | 图 | 否 | 有(限) | 是 | 政企金融、知识增强 | 金融、政务、医疗 |
| 4 | Mistral | Large 3;开源/商业可选 | Mistral | 长 | 图 | 可选 | 有 | 需网络 | 接近前沿、多语言 | 企业、自建、多语言 |
| 4 | Llama | 4 Maverick;开放权重、自托管 | Meta | 长 | 部分 | 是 | 自建免费 | 需自建 | 隐私、本地、可商用权重 | 本地部署、隐私、开发 |
| 5 | 腾讯混元 | 多版本;视频生成强 | 腾讯 | 长 | 图/视频 | 否 | 有(限) | 是 | 通用中文、视频质量一流 | 通用、国内、视频 |
| 5 | 讯飞星火 | 多版本;深度推理、语音强 | 科大讯飞 | 长 | 图/音 | 否 | 有(限) | 是 | 语音+多模态、教育/办公 | 语音、教育、办公 |
| 5 | 华为盘古 | 行业大模型、L1/L2 架构 | 华为 | 长 | 多模态 | 否 | 商用 | 是 | 政企、行业定制 | 政企、B 端、华为云 |
说明:梯队 1 为当前综合能力顶尖,2 为一线/高性价比,3 为国内 T0/T1 或强通用,4 为开源/自建友好,5 为垂直或政企向。多模态含图/音/视频等;免费层「有(限)」表示有免费额度但有限制。
三、各工具从零到熟练教程
下面按对比表顺序(能力由强到弱)依次介绍:ChatGPT → Claude → Gemini → Grok → DeepSeek → 豆包。每个工具都会一步一步教你怎么打开、怎么发第一句话、怎么玩转常用功能,跟着做零基础也能立刻上手。
第一步:打开网站并登录
在浏览器地址栏输入 chat.openai.com(或搜索「ChatGPT 官网」)。第一次打开会提示你登录或注册。
点「Log in」或「Sign up」。可以用邮箱注册,也可以选「Continue with Google」或「Continue with Apple」用已有账号登录,按页面提示填完就行。
部分地区会要求验证手机号,按提示输入收到的验证码即可。完成后就会进入对话界面。
第二步:发你的第一句话
进入后你会看到:下方一个大输入框,有时上面还会有一两句示例问题(比如「解释量子力学」「写一首诗」)。
在输入框里用键盘打字,比如:「你好,请用一句话介绍你自己。」然后按 回车(Enter) 或点输入框右侧的发送按钮。
几秒钟后,下方会出现 AI 的回复。这就是一次完整的「一问一答」。你可以接着在同一个输入框里继续问,比如「那你能帮我做什么?」——它会记住你们刚才的对话,这就是多轮对话。
第三步:试试「让它帮你写东西」
在输入框里输入:「帮我写一封简短的请假邮件,理由是家里有事,请假一天。」发送后,AI 会给你一整段写好的邮件,你可以直接复制到邮箱里用,或者再说「语气再正式一点」「改成半天」让它改一版。
第四步:上传文件或图片(可选)
在输入框的左边,一般会有一个「+」号或「回形针」图标,点一下可以选择上传图片或文件(如 PDF、Word)。选好后,再在输入框里输入你的问题,比如「请总结这份 PDF 的要点」或「这张图片里有什么」,AI 就会结合你传的内容来回答。
第一步:打开并登录
在浏览器里输入 claude.ai,或搜索「Claude 官网」。
点「Sign up」或「Log in」,可以用邮箱注册,也可以选「Continue with Google」等。部分功能需要订阅 Pro,但免费版也足够日常对话和写东西。
第二步:先聊一句,再丢长文
登录后同样是一个大输入框。先随便问一句「你好,你能做什么?」熟悉一下界面。
Claude 的强项之一是处理很长的文字。你可以把一篇长文章复制粘贴到输入框里,然后在下面加一句:「请用 3 个要点总结上面这篇文章」,或者「根据上文,列出所有提到的人名和他们的观点」。它会把整段都读进去再回答。
第三步:上传文件
输入框附近有上传入口(图标或「Attach」),可以上传 PDF、TXT 等。上传后,在输入框里输入「请总结这份文档的主要内容」或「第二页里说了什么」,Claude 会结合文档内容回答。
第一步:用 Google 账号打开
在浏览器输入 gemini.google.com,或搜索「Google Gemini」。
页面会提示你用 Google 账号登录。如果你已经有 Gmail,直接选账号、输入密码即可,无需重新注册。
第二步:对话 + 传图
进入后同样是输入框。你可以打字问问题,也可以点「上传」或「图片」图标,传一张照片,然后问「这张图里有什么」「请描述一下」,Gemini 会同时「看」图和你写的字来回答,这就是多模态。
第三步:和 Gmail、Drive 联动(可选)
如果你开通了 Google 的 AI Premium 等方案,Gemini 可以读取你的 Gmail、网盘文件(需授权)。在界面里会有「连接到 Google 应用」之类的选项,按提示操作即可;不用也没关系,单对话和传图已经很好用。
第一步:打开网页、App 或在 X 里用
Grok 是马斯克旗下 xAI 的 AI 对话产品,有三种常用入口:
网页版:在浏览器打开 grok.com,用邮箱或 X(Twitter) 账号登录即可开始对话。界面和 ChatGPT 类似,下方输入框打字、上传图片或文件都可以。
在 X 里用:如果你已是 X Premium+ 订阅用户,在 X 网页或 App 的左侧边栏或导航里找到 Grok 图标(或打开 x.com/i/grok),点进去即可在时间线旁和 Grok 对话,无需再单独开网页。
第二步:发第一句话,试试「实时」和风格
在输入框里打字问问题,比如:「今天科技圈有什么大新闻?」「用三句话总结一下某某事件。」Grok 能结合 X 平台和网络实时信息 回答,适合追热点、要「刚发生的事」时用。
部分版本可选「标准/实用」或「趣味/犀利」等风格,回答会更有个性;需要严肃、简洁时选标准即可。
第三步:传图、文档与高级能力(视订阅)
在 grok.com 或 App 里可以上传图片、PDF,让 Grok 看图、总结文档。若订阅 SuperGrok,还可使用更强模型(如 Grok Heavy)、更高额度及深度推理等,详见 grok.com/plans。
第一步:打开聊天页或注册 API
在浏览器输入 chat.deepseek.com 或 platform.deepseek.com(后者偏开发者)。
若用网页聊天:打开 chat.deepseek.com,按提示注册/登录(可用邮箱或手机),就会看到和 ChatGPT 很像的对话界面,直接打字问即可。
若你打算在自己写的程序里调用:打开 platform.deepseek.com,注册后进入「API Keys」,创建一个 Key,然后按照页面的「文档」把 Key 填进你的代码里(这一步需要一点编程基础,零基础可以先用网页版)。
第二步:日常怎么用网页版
在输入框里用中文或英文提问都可以。比如:「用 Python 写一个程序,读入一个列表,输出里面的最大值。」DeepSeek 会给你一整段代码,并简单解释。你可以把代码复制到本地运行,或继续问「如果列表是空的怎么办」让它改进。
第一步:下载 App 或打开网页
国内用户可以直接在应用商店搜索「豆包」下载 App,或用浏览器打开豆包官网:www.doubao.com(电脑版下载)。
打开后需要用手机号或抖音/头条账号登录(属字节系产品)。登录后就能看到主界面:通常是底部或中间有一个输入框,上面可能有一些推荐问题或最近对话。
第二步:打字或语音
在输入框里打字提问,和用 ChatGPT 一样。很多版本还支持语音输入:点麦克风图标,直接说话,它会转成文字再回答,特别适合在路上或不想打字的时候。
第三步:传图、生成图片或视频(视版本)
豆包集成了多模态:可以上传图片让 AI 看图回答;部分版本还支持「生成图片」「生成短视频」(Seedream、Seedance),在对话里直接说「画一张……」「生成一段……的视频」,按提示操作即可。具体入口以当前 App 或网页为准。
其他如 Kimi、通义千问、文心一言、智谱 GLM、Mistral Le Chat、讯飞星火、腾讯混元、华为盘古 等,用法大同小异:都是「打开官网或 App → 登录 → 在输入框里打字或上传内容 → 看回复」。你只要记住:先选一个用熟,再慢慢试别的,就不会乱。
四、进阶与延伸学习链接
下面这些链接适合你想深入了解、查最新功能或价格时用。零基础先把上面「从零到熟练」练会,再按需点开即可。
4.1 官方文档(查功能、价格、API)
下面每个链接都可以直接点击跳转到对应页面,查模型说明、价格和接入方式。
ChatGPT 用的所有模型说明、价格和接口文档。
Anthropic 文档 — docs.anthropic.comClaude 的模型介绍和 API,想接到自己产品里时用。
Google AI — ai.google.devGemini 的开发者文档和示例。
xAI / Grok 文档 — docs.x.aiGrok 模型说明、API、定价与接入方式;网页对话入口为 grok.com,官网为 x.ai。
DeepSeek 文档 — platform.deepseek.com/docsAPI 价格和调用方式。
豆包 — www.doubao.com官网与产品介绍,开放平台/开发文档在站内可查。
Kimi(月之暗面) — kimi.moonshot.cn官网与使用入口,开发相关见站内开放平台。
通义千问 — tongyi.aliyun.com阿里云大模型入口,文档与 API 在阿里云控制台可查。
智谱 GLM 开放平台 — open.bigmodel.cn智谱 AI 的 API 与开发文档,可查接入方式与免费额度。
文心一言 — yiyan.baidu.com百度大模型入口,开放平台与额度见百度智能云。
Mistral Le Chat — chat.mistral.aiMistral Large 等模型网页对话,多语言、可无需注册试用;API 与文档见 mistral.ai。
Meta Llama — ai.meta.com/llama开源大模型,支持自托管与本地部署,适合开发者与重视隐私的场景。
腾讯混元 — 腾讯云腾讯自研大模型,文本/多模态/视频等;产品与 API 见腾讯云控制台。
讯飞星火 — xinghuo.aigc.cn科大讯飞认知大模型,语音与多模态、教育/办公场景。
华为盘古大模型 — 华为云政企与行业大模型,需华为云账号;产品页与控制台见华为云。
4.2 想看看「谁更强」?
4.3 社区和延伸阅读
国外用户讨论 ChatGPT 用法、新功能。
Reddit r/ClaudeAIClaude 用法与讨论。
Hugging Face — huggingface.co很多开源模型和教程,适合以后想折腾「自己部署一个」时看。
国内知乎、即刻等平台搜索「ChatGPT 技巧」「Claude 用法」会有很多接地气的分享;知乎可搜 ChatGPT 技巧、Claude 用法 直接跳转搜索结果。