title: what is AI author: Gamehu tags:

AI categories:
学习 date: 2024-03-09 21:31:00 ---
AI 第二篇

背景

整理此篇最开始源于做知识库时{% post_link AI应用-知识库 %}时，当时就想整理写一篇关于AI的一些基础概念，个人扫盲专用，但是老忘。

刚好最近找工作看到了很多AI相关的JD，所以想借着找工作的空隙，补一补这块的知识。

其实我应该是比较早用chatgpt的用户，我都付费了一段时间后，我的很多同事才刚开始想方设法使用chatgpt，但是对于我来说更多时候把它作为一个效率工具或者新奇的玩具在用，关于AI的概念比较散，没有系统的深入了解过，刚好有工作中的机会让我意识到AI离我那么近，我应该好好认知它了，所以有了这篇文章，先把各种概念搞清楚。

正文

1. 人工智能的基础概念

什么是人工智能？

人工智能（Artificial Intelligence，简称AI）是指通过计算机系统模拟人类智能的技术。它让机器能够学习、推理、感知、交流，甚至模仿人类的认知能力。

AI的分类

从应用角度，AI可分为三种类型：

弱人工智能（Narrow AI）：专注于解决特定问题的AI，如语音助手、图像识别等。现阶段大多数AI应用都属于此类。
通用人工智能（AGI）：具备与人类相当的认知能力，能够理解、学习并应用知识解决各种问题。目前仍处于理论和研究阶段。
超级人工智能（ASI）：理论上超越人类智能的AI，能在几乎所有领域超越人类最优秀的表现。

AI的核心技术基础

机器学习（Machine Learning）：让计算机从数据中学习并改进的方法，而不需要被明确编程。
深度学习（Deep Learning）：机器学习的一个子集，是神经网络的一种实现方法，使用多层神经网络模拟人脑结构进行学习。深度学习是一种让多层神经元可以进行有效计算的方法，大大提高了神经网络的性能。“深度学习”这个名字，就是比喻多层神经元的自主学习过程。
自然语言处理（NLP）：使计算机能够理解、解释和生成人类语言。
计算机视觉（Computer Vision）：让计算机能够"看到"并理解视觉信息。

2. 机器学习：AI的核心引擎

机器学习的基本概念

机器学习使计算机能够通过经验自动改进，这种"经验"通常来自数据。简单来说，传统编程是人类编写规则让计算机执行，而机器学习是计算机从数据中找出规则。

机器学习的主要类型

监督学习：使用已标记的数据训练模型，如分类和回归问题。
- 例如：垃圾邮件分类、房价预测
无监督学习：从未标记的数据中发现模式和结构。
- 例如：客户分群、异常检测
强化学习：通过尝试与环境互动并获得反馈来学习最佳策略。
- 例如：游戏AI、自动驾驶决策系统

神经网络与深度学习

神经网络是机器学习的一种主要形式。它模仿人脑神经元连接方式的数学模型，由多层人工神经元组成：

输入层：接收初始数据
隐藏层：处理信息（深度学习通常有多个隐藏层）
输出层：产生最终结果

深度学习是神经网络的一种实现方法，使用的神经网络具有多个隐藏层，能够学习更复杂的特征和模式，特别适合处理非结构化数据如图像、声音和文本。

3. 现代AI模型与架构

深度学习的方法

卷积神经网络（CNN）

CNN专门设计用于处理图像数据，通过使用卷积层来检测特征（如边缘、形状等），然后通过池化层减少数据维度，最后通过全连接层进行分类。

CNN广泛应用于：

图像分类与识别
物体检测
医学图像分析

循环神经网络（RNN）与长短期记忆网络（LSTM）

RNN能够处理序列数据，具有"记忆"功能，适合处理文本、语音等时序数据。LSTM是RNN的改进版，解决了长序列训练中的梯度消失问题。

应用领域：

语音识别
机器翻译
文本生成

Transformer架构

Transformer通过自注意力机制处理序列数据，克服了RNN处理长序列的局限性，成为现代语言模型的基础架构。Transformer 不同于以前的方法，不再一个个处理输入的单词，而是一次性处理整个输入，对每个词分配不同的权重。这种方法直接导致了2022年ChatGPT和后来无数生成式AI模型的诞生，是神经网络和深度学习目前的主流方法。由于基于 Transformer 的模型需要一次性处理整个输入，所以都有“上下文大小”这个指标，指的是一次可以处理的最大输入。比如，GPT-4 Turbo 的上下文是 128k 个 Token，相当于一次性读取超过300页的文本。上下文越大，模型能够考虑的信息就越多，生成的回答也就越相关和连贯，相应地，所需要的算力也就越多。

著名的Transformer模型：

BERT（谷歌）
GPT系列（OpenAI）
Claude系列（Anthropic）

大型语言模型（LLM）

大型语言模型（Large Language Models，简称LLM）如GPT-4、Claude和Llama是基于Transformer架构的巨型AI模型，通过大规模预训练和微调，能够理解和生成人类语言，执行各种复杂的语言任务。本质上是一种基于深度学习的人工智能系统，它能够理解、生成和处理人类语言。让我来简单解释一下：

大语言模型的本质

大语言模型是一种超大规模的神经网络，通常基于Transformer架构，它通过分析海量文本数据来"学习"语言的模式、规则和知识。想象一下，它就像一个阅读了互联网上大部分内容的"超级读者"，通过理解文字之间的关系来预测和生成文本。

工作原理

预训练：模型首先在海量文本数据上进行训练，学习词汇、语法、事实知识和一些推理能力
模式识别：它学会识别词语间的关系和上下文意义
生成文本：当你给它一个提示或问题时，它会预测最可能的后续文本

特点和能力

规模巨大：现代LLM通常有数十亿到数万亿个参数（如GPT-4、Claude等）
通用性强：不需要针对特定任务重新训练就能执行多种语言任务
上下文理解：能够理解长文本中的上下文关系
生成能力：可以创作文章、对话、代码、诗歌等多种内容
少样本学习：只需几个例子就能理解新任务

常见应用

聊天机器人和虚拟助手
内容创作和写作辅助
代码生成和编程辅助
文档总结和信息提取
语言翻译和知识问答

简单来说，大语言模型是一种能够"理解"并"生成"人类语言的AI系统，它通过分析海量文本数据学习语言模式，并能够处理各种语言相关的任务。正是由于它的规模和训练方式，使它具备了理解上下文、生成连贯文本、解决问题和模拟对话等能力。

4. AI模型评估与开发框架

AI模型的评价指标

准确率（Accuracy）：
- 定义：正确预测的样本数除以总样本数
- 适用：分类问题，特别是类别平衡的情况
- 局限：在类别不平衡情况下可能产生误导
精确率（Precision）与召回率（Recall）：
- 精确率：真正例数除以所有预测为正例的数量
- 召回率：真正例数除以所有实际正例的数量
- 应用：搜索引擎结果、医疗诊断等需要平衡查全率和查准率的场景
F1分数：
- 定义：精确率和召回率的调和平均数
- 特点：同时考虑精确率和召回率，对极端值敏感
- 公式：F1 = 2 × (精确率 × 召回率) / (精确率 + 召回率)
ROC曲线和AUC值：
- ROC曲线：以假正例率为横轴，真正例率为纵轴的曲线
- AUC：ROC曲线下的面积，表示模型区分正负样本的能力
- 数值含义：AUC为0.5表示随机猜测，越接近1表示模型越好
困惑度（Perplexity）：
- 定义：评估语言模型预测下一个词能力的指标
- 计算：基于交叉熵，越低表示模型预测越准确
- 应用：评估GPT、BERT等语言模型的训练效果
BLEU分数：
- 用途：评估机器翻译或文本生成质量
- 机制：比较生成文本与参考文本的n-gram重合度
- 范围：0到1，越高表示越接近参考文本
推理速度与延迟：
- 测量：每秒处理的请求数或响应所需的时间
- 影响因素：模型大小、硬件配置、批处理大小
- 重要性：实时应用中的关键指标
参数量与计算复杂度：
- 参数量：模型包含的可训练参数数量，通常以亿(B)计
- FLOPs：浮点运算数，衡量计算复杂度
- 应用：评估模型规模和资源需求
MMLU（大规模多任务语言理解）：
- 测试内容：涵盖57个科目的多选题
- 价值：评估模型在不同领域的知识和推理能力
- 应用：评估像GPT-4、Claude等大型语言模型
毒性与公平性评估：
- 毒性指标：评估模型产生有害内容的倾向
- 公平性指标：评估模型对不同群体的偏见程度
- 方法：使用特定的基准测试集和人类评估

流行的深度学习框架

TensorFlow：由Google开发的开源机器学习框架
- 特点：完整的生态系统，支持生产环境部署，TensorBoard可视化
- 应用：大规模产品化AI服务，如语音识别、图像分类等
- 适合：企业级应用和研究团队
PyTorch：由Facebook (Meta) AI研究团队开发
- 特点：动态计算图，直观的Python接口，更易于调试
- 应用：学术研究，原型开发，尤其在NLP和计算机视觉领域流行
- 适合：研究人员和快速迭代开发
其他重要框架：
- Keras：高级API，可在TensorFlow之上运行，简化开发流程
- JAX：Google开发的用于高性能数值计算的库
- Hugging Face Transformers：专注于预训练模型的库，尤其是NLP模型

数据与训练过程

AI模型的训练需要大量高质量数据和计算资源：

数据收集与处理：收集、清洗、标注和增强数据
模型设计：选择合适的架构和初始参数
训练过程：使用优化算法（如梯度下降）调整模型参数
验证与测试：使用独立数据集评估模型性能
部署与监控：将模型投入实际应用并持续监控性能

先进训练技术

迁移学习：利用在一个任务上训练的知识来改进另一个相关任务的性能。
微调：在预训练模型的基础上，使用特定任务的数据进行进一步训练。
对比学习：让模型学习区分相似和不同的数据样本。
强化学习与人类反馈（RLHF）：使用人类反馈来指导模型行为，提高模型输出的质量和安全性。

5. AI应用领域与开发工具

这里有个我有些混淆的点，就是AI应用和AI Agent区别，单独拎出来说下:

AI应用

AI应用是指集成了AI技术的软件程序，通常为了解决特定问题或完成特定任务而设计：

功能范围：通常专注于一个或几个特定功能（如图像识别应用、语音转文本工具）
交互方式：用户提出请求，应用直接响应
自主性：有限，主要按照预设的方式运行
例子：智能照片编辑器、语音助手、自动翻译工具

AI Agent

AI Agent是一种更高级的系统，能够感知环境、自主决策并采取行动实现目标的AI系统：

功能范围：能够执行多步骤任务，调用多种工具
交互方式：可以理解用户意图，规划执行步骤，使用多种工具完成任务
自主性：较高，能根据环境和反馈调整行动（反应能力、社交能力和主动性）
例子：研究助手、客服代理、任务自动化

关键区别

自主决策能力：
- AI应用：按预定路径执行
- AI Agent：可以自行规划和决策如何完成任务
工具使用：
- AI应用：通常使用内置功能
- AI Agent：可以调用多种外部工具和API
状态维护：
- AI应用：每次交互可能是独立的
- AI Agent：维护对话或任务的状态，记住上下文

在技术栈中的位置

正如之前的图表所示，AI应用处于技术栈的顶层，可以包含AI Agent作为其组成部分，也可以是更简单的AI功能实现。而AI Agent通常建立在大语言模型之上，使用特定的Agent开发平台构建。

本质上，所有的AI Agent都是AI应用，但不是所有的AI应用都是Agent。AI Agent代表了更高级、更自主的AI应用形式。

主流AI Agent和应用开发平台

Dify：开源的LLM应用开发平台，提供可视化界面和API接口
- 功能：知识库管理、对话应用创建、数据标注
- 适合：快速构建企业级AI助手和应用
Coze：微信团队开发的对话式AI平台
- 功能：多场景机器人开发、无代码开发、多平台集成
- 适合：社交媒体和聊天平台的AI助手开发
LangChain：开源的大型语言模型应用开发框架
- 功能：链式处理、代理（Agent）、知识库集成、工具调用
- 适合：开发者构建复杂的AI应用和工作流程
LlamaIndex：专注于数据连接和检索的框架
- 功能：数据摄取、结构化、检索增强生成(RAG)
- 适合：构建与私有数据交互的应用

自然语言处理应用

聊天机器人与虚拟助手：如ChatGPT、Claude、Siri和小爱同学
机器翻译：如谷歌翻译、DeepL
文本摘要与生成：自动生成报告、文章和创意内容
情感分析：分析社交媒体、评论的情感倾向

计算机视觉应用

人脸识别：安防系统、手机解锁
自动驾驶：感知环境、识别道路和障碍物
医学影像分析：辅助诊断疾病
增强现实（AR）：叠加虚拟信息到真实世界

其他重要应用

推荐系统：个性化电商、音乐、视频推荐
金融科技：风险评估、算法交易、欺诈检测
智能制造：预测性维护、质量控制
科学研究：药物发现、蛋白质折叠预测、气候模拟

6. 生成式AI

什么是生成式AI？

生成式AI是能够创建新内容的人工智能系统，包括文本、图像、音频、视频等。它不仅能回答问题，还能创作各种内容。

文本生成

大型语言模型（如GPT-4、Claude等）可以：

撰写文章、故事和诗歌
创建对话和角色扮演
编写代码和技术文档
生成各种类型的商业内容

图像生成

基于扩散模型的AI系统（如DALL-E、Midjourney、Stable Diffusion）能够：

根据文本描述生成高质量图像
修改现有图像
创建艺术作品和商业设计
将草图转换为详细图像

音频与视频生成

AI语音合成：生成逼真的人工语音（如ElevenLabs）
音乐生成：创作原创音乐（如Suno、MusicLM）
视频生成：通过文本描述或图像创建视频（如Sora、Runway）

7. AI的伦理与挑战

伦理考量

偏见与公平性：模型可能继承训练数据中的偏见，导致不公平结果
隐私问题：AI系统的训练和运行可能涉及敏感个人数据
透明度与可解释性：深度学习模型通常被视为"黑盒"，难以解释决策过程
自主性与责任：当AI系统做出决策时，谁应负责任？

技术挑战

数据质量与规模：高质量训练数据的获取与处理
计算资源需求：大型模型训练需要大量计算资源
鲁棒性问题：模型在遇到分布外数据时可能表现不佳
安全与对抗性攻击：模型可能被精心设计的输入所欺骗

社会经济影响

就业变化：自动化可能改变就业结构
数字鸿沟：技术获取不平等可能加剧社会不平等
教育转型：教育系统需要适应AI时代的技能需求
信息真实性：生成式AI带来的深度伪造和虚假信息挑战

开源与AI民主化

开源模型的崛起：
- Llama系列：Meta发布的开源大型语言模型
- Mistral AI：欧洲初创公司开发的高性能开源模型
- Stability AI：开源图像生成模型的领先开发者
本地部署与私有化：
- 轻量级模型：适合在消费级硬件上运行的小型模型
- 边缘计算：将AI能力部署到终端设备
- 隐私优先：不依赖云服务的AI解决方案

应用前景

医疗健康：个性化医疗、疾病预测、药物发现加速
气候变化：优化能源使用、气候模型、环保解决方案
教育革新：个性化学习体验、智能辅导系统
太空探索：自主探测器、数据分析、任务规划

AI与人类协作

未来，最成功的场景很可能是人类与AI协作，而非完全替代：

增强人类能力：AI作为工具，扩展人类的认知和创造能力
互补优势：AI处理数据密集型和重复性任务，人类提供创造力、情感和道德判断
共同演进：人类与AI技术相互适应，形成新的工作和生活方式

8. 如何入门AI学习

基础知识准备

数学基础：线性代数、微积分、概率与统计
编程技能：Python是AI领域最流行的语言
计算机科学基础：算法、数据结构、计算复杂性

关键词说明

token

在自然语言处理（NLP）和大模型中，Token（标记/词元）是文本处理的基本单位，可以理解为模型“读懂”文本的最小片段。它的作用类似于人类语言中的“词语”，但具体定义更灵活，可能是一个单词、子词、标点符号，甚至单个字符。可以看下chatgpt的Tokenizer：

B

在大模型（如GPT、LLaMA等）的命名中，"B"通常代表"Billion"（十亿），表示模型的参数量级。例如：

13B → 130亿参数 70B → 700亿参数 175B → 1750亿参数（如GPT-3）

这个单位是衡量模型复杂度和规模的关键指标。参数越多，模型通常能力越强，但也需要更多计算资源和数据训练。这个参数直接影响模型的“知识容量”和学习能力，但并非绝对。模型性能还与数据质量、训练方法、架构设计等因素相关。比如咱们的DeepSeek跟chatgpt不就是一个典型的例子吗

大模型

大模型（Large Language Model, LLM）是指参数量极大、训练数据量极广的深度学习模型，通常专指自然语言处理（NLP）领域的超大规模模型。它们的“大”不仅体现在参数规模（如千亿级），还体现在训练数据、计算资源和应用能力的突破性提升。

AI 幻觉

AI 系统生成内容与现实事实或用户输入不符。原因包括数据缺陷（错误信息、偏见等）、训练过程局限（架构、推理、对齐问题）及推理随机性等。常见于大语言模型，影响输出可靠性。幻觉是模型缺陷，需通过RAG检索增强或微调减少。

模型蒸馏

把复杂大模型（教师模型）知识迁移到简单小模型（学生模型），让小模型以低计算成本模仿大模型性能。用于在资源受限场景部署模型，如智能家居设备的AI应用。

模型微调

在已训练好模型基础上，针对特定任务或数据集调整，提升模型在该场景的性能。例如医疗领域。

what-is-AI.md 21 KB Istoric Crud

背景

正文