title: what is AI author: Gamehu tags:
整理此篇最开始源于做知识库时{% post_link AI应用-知识库 %}时,当时就想整理写一篇关于AI的一些基础概念,个人扫盲专用,但是老忘。
刚好最近找工作看到了很多AI相关的JD,所以想借着找工作的空隙,补一补这块的知识。
其实我应该是比较早用chatgpt的用户,我都付费了一段时间后,我的很多同事才刚开始想方设法使用chatgpt,但是对于我来说更多时候把它作为一个效率工具或者新奇的玩具在用,关于AI的概念比较散,没有系统的深入了解过,刚好有工作中的机会让我意识到AI离我那么近,我应该好好认知它了,所以有了这篇文章,先把各种概念搞清楚。
人工智能(Artificial Intelligence,简称AI)是指通过计算机系统模拟人类智能的技术。它让机器能够学习、推理、感知、交流,甚至模仿人类的认知能力。
从应用角度,AI可分为三种类型:
弱人工智能(Narrow AI):专注于解决特定问题的AI,如语音助手、图像识别等。现阶段大多数AI应用都属于此类。
通用人工智能(AGI):具备与人类相当的认知能力,能够理解、学习并应用知识解决各种问题。目前仍处于理论和研究阶段。
超级人工智能(ASI):理论上超越人类智能的AI,能在几乎所有领域超越人类最优秀的表现。
机器学习(Machine Learning):让计算机从数据中学习并改进的方法,而不需要被明确编程。
深度学习(Deep Learning):机器学习的一个子集,是神经网络的一种实现方法,使用多层神经网络模拟人脑结构进行学习。深度学习是一种让多层神经元可以进行有效计算的方法,大大提高了神经网络的性能。“深度学习”这个名字,就是比喻多层神经元的自主学习过程。
自然语言处理(NLP):使计算机能够理解、解释和生成人类语言。
计算机视觉(Computer Vision):让计算机能够"看到"并理解视觉信息。
机器学习使计算机能够通过经验自动改进,这种"经验"通常来自数据。简单来说,传统编程是人类编写规则让计算机执行,而机器学习是计算机从数据中找出规则。
监督学习:使用已标记的数据训练模型,如分类和回归问题。
无监督学习:从未标记的数据中发现模式和结构。
强化学习:通过尝试与环境互动并获得反馈来学习最佳策略。
神经网络是机器学习的一种主要形式。它模仿人脑神经元连接方式的数学模型,由多层人工神经元组成:
深度学习是神经网络的一种实现方法,使用的神经网络具有多个隐藏层,能够学习更复杂的特征和模式,特别适合处理非结构化数据如图像、声音和文本。
CNN专门设计用于处理图像数据,通过使用卷积层来检测特征(如边缘、形状等),然后通过池化层减少数据维度,最后通过全连接层进行分类。
CNN广泛应用于:
RNN能够处理序列数据,具有"记忆"功能,适合处理文本、语音等时序数据。LSTM是RNN的改进版,解决了长序列训练中的梯度消失问题。
应用领域:
Transformer通过自注意力机制处理序列数据,克服了RNN处理长序列的局限性,成为现代语言模型的基础架构。Transformer 不同于以前的方法,不再一个个处理输入的单词,而是一次性处理整个输入,对每个词分配不同的权重。这种方法直接导致了2022年ChatGPT和后来无数生成式AI模型的诞生,是神经网络和深度学习目前的主流方法。 由于基于 Transformer 的模型需要一次性处理整个输入,所以都有“上下文大小”这个指标,指的是一次可以处理的最大输入。比如,GPT-4 Turbo 的上下文是 128k 个 Token,相当于一次性读取超过300页的文本。上下文越大,模型能够考虑的信息就越多,生成的回答也就越相关和连贯,相应地,所需要的算力也就越多。
著名的Transformer模型:
大型语言模型(Large Language Models,简称LLM)如GPT-4、Claude和Llama是基于Transformer架构的巨型AI模型,通过大规模预训练和微调,能够理解和生成人类语言,执行各种复杂的语言任务。本质上是一种基于深度学习的人工智能系统,它能够理解、生成和处理人类语言。让我来简单解释一下:
大语言模型是一种超大规模的神经网络,通常基于Transformer架构,它通过分析海量文本数据来"学习"语言的模式、规则和知识。想象一下,它就像一个阅读了互联网上大部分内容的"超级读者",通过理解文字之间的关系来预测和生成文本。
简单来说,大语言模型是一种能够"理解"并"生成"人类语言的AI系统,它通过分析海量文本数据学习语言模式,并能够处理各种语言相关的任务。正是由于它的规模和训练方式,使它具备了理解上下文、生成连贯文本、解决问题和模拟对话等能力。
准确率(Accuracy):
精确率(Precision)与召回率(Recall):
F1分数:
ROC曲线和AUC值:
困惑度(Perplexity):
BLEU分数:
推理速度与延迟:
参数量与计算复杂度:
MMLU(大规模多任务语言理解):
毒性与公平性评估:
TensorFlow:由Google开发的开源机器学习框架
PyTorch:由Facebook (Meta) AI研究团队开发
其他重要框架:
AI模型的训练需要大量高质量数据和计算资源:
迁移学习:利用在一个任务上训练的知识来改进另一个相关任务的性能。
微调:在预训练模型的基础上,使用特定任务的数据进行进一步训练。
对比学习:让模型学习区分相似和不同的数据样本。
强化学习与人类反馈(RLHF):使用人类反馈来指导模型行为,提高模型输出的质量和安全性。
AI应用是指集成了AI技术的软件程序,通常为了解决特定问题或完成特定任务而设计:
AI Agent是一种更高级的系统,能够感知环境、自主决策并采取行动实现目标的AI系统:
自主决策能力:
工具使用:
状态维护:
正如之前的图表所示,AI应用处于技术栈的顶层,可以包含AI Agent作为其组成部分,也可以是更简单的AI功能实现。而AI Agent通常建立在大语言模型之上,使用特定的Agent开发平台构建。
本质上,所有的AI Agent都是AI应用,但不是所有的AI应用都是Agent。AI Agent代表了更高级、更自主的AI应用形式。
Dify:开源的LLM应用开发平台,提供可视化界面和API接口
Coze:微信团队开发的对话式AI平台
LangChain:开源的大型语言模型应用开发框架
LlamaIndex:专注于数据连接和检索的框架
生成式AI是能够创建新内容的人工智能系统,包括文本、图像、音频、视频等。它不仅能回答问题,还能创作各种内容。
大型语言模型(如GPT-4、Claude等)可以:
基于扩散模型的AI系统(如DALL-E、Midjourney、Stable Diffusion)能够:
开源模型的崛起:
本地部署与私有化:
医疗健康:个性化医疗、疾病预测、药物发现加速
气候变化:优化能源使用、气候模型、环保解决方案
教育革新:个性化学习体验、智能辅导系统
太空探索:自主探测器、数据分析、任务规划
未来,最成功的场景很可能是人类与AI协作,而非完全替代:
文章或视频:
人工智能正在以前所未有的速度发展,从改变我们日常使用的应用程序到推动科学研究的前沿。无论你是对AI好奇的初学者,还是寻求深入了解的专业人士,了解AI的基本概念、技术和趋势都至关重要。
AI并非遥不可及的未来技术,而是已经深入我们生活的工具和伙伴。通过积极学习和理性看待,我们可以更好地利用AI的力量,同时规避潜在风险,共同创造一个技术与人文平衡发展的未来。
在自然语言处理(NLP)和大模型中,Token(标记/词元) 是文本处理的基本单位,可以理解为模型“读懂”文本的最小片段。它的作用类似于人类语言中的“词语”,但具体定义更灵活,可能是一个单词、子词、标点符号,甚至单个字符。
可以看下chatgpt的Tokenizer:

在大模型(如GPT、LLaMA等)的命名中,"B"通常代表"Billion"(十亿),表示模型的参数量级。例如:
13B → 130亿参数 70B → 700亿参数 175B → 1750亿参数(如GPT-3)
这个单位是衡量模型复杂度和规模的关键指标。参数越多,模型通常能力越强,但也需要更多计算资源和数据训练。这个参数直接影响模型的“知识容量”和学习能力,但并非绝对。模型性能还与数据质量、训练方法、架构设计等因素相关。比如咱们的DeepSeek跟chatgpt不就是一个典型的例子吗
大模型(Large Language Model, LLM)是指参数量极大、训练数据量极广的深度学习模型,通常专指自然语言处理(NLP)领域的超大规模模型。它们的“大”不仅体现在参数规模(如千亿级),还体现在训练数据、计算资源和应用能力的突破性提升。
AI 系统生成内容与现实事实或用户输入不符。原因包括数据缺陷(错误信息、偏见等)、训练过程局限(架构、推理、对齐问题)及推理随机性等。常见于大语言模型,影响输出可靠性。幻觉是模型缺陷,需通过RAG检索增强或微调减少。
把复杂大模型(教师模型)知识迁移到简单小模型(学生模型),让小模型以低计算成本模仿大模型性能。用于在资源受限场景部署模型,如智能家居设备的AI应用。
在已训练好模型基础上,针对特定任务或数据集调整,提升模型在该场景的性能。例如医疗领域。