LLM

做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经

大模型理论与实战 人工智能 算法 大模型 LLM

用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对

NLP与大模型 人工智能 自然语言处理 深度学习 LLM

用通俗易懂的方式讲解：一文讲清大模型 RAG 技术全流程

目录一为什么业界普遍关注RAG 通俗易懂讲解大模型系列技术交流二 RAG技术要怎么干 1 安装pdf解析库 2 检索引擎

大模型 大模型理论与实战 多模态 LLM ChatGPT

序列模型（4）—— Scaling Laws

本文介绍 LLM 训练过程中重要的 Scaling Laws 这是一个经验规律指出了固定训练成本总计算量FLOPs C C C 时如何调配模型规模参数量 N N

LLM专题 论文理解 LLM Sacaling Law

大模型笔记【2】 LLM in Flash

Apple最近发表了一篇文章可以在iphone MAC 上运行大模型 LLM in a flash Efficient Large Language Model Inference with Limited Memory 主要解决的问题是

大模型LLM memory LLM 大模型

A Survey of Graph Meets Large Language Model: Progress and Future Directions

本文是LLM系列文章针对 A Survey of Graph Meets Large Language Model Progress and Future Directions 的翻译当图遇到大型语言模型综述进展与未来方向摘要 1

LLM 综述文章 图神经网络 语言模型 人工智能

LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

本文是LLM系列文章针对 LONGQLORA EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS 的翻译 LONGQLORA 扩

LLM 语言模型 人工智能 自然语言处理

LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体

认识和理解视觉内容以及基于人类指令对视觉世界进行推理长久以来一直是一个具有挑战性问题得益于大规模预训练 OpenAI 的 GPT 4V 展示了在自然语言处理任务和复杂视觉理解中令人印象深刻的能力智源社区邀请到了LLaVA的一作柳昊天

LLM

WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

本文是LLM系列文章针对 WaterBench Towards Holistic Evaluation of Watermarks for Large Language Models 的翻译 WaterBench 面向大型语言模型水印的整

LLM 语言模型 人工智能 自然语言处理

LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体

认识和理解视觉内容以及基于人类指令对视觉世界进行推理长久以来一直是一个具有挑战性问题得益于大规模预训练 OpenAI 的 GPT 4V 展示了在自然语言处理任务和复杂视觉理解中令人印象深刻的能力智源社区邀请到了LLaVA的一作柳昊天

LLM

WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

本文是LLM系列文章针对 WaterBench Towards Holistic Evaluation of Watermarks for Large Language Models 的翻译 WaterBench 面向大型语言模型水印的整

LLM 语言模型 人工智能 自然语言处理

WarAgent使用多智能体理解人类历史和预防未来国际冲突

我们能否避免历史十字路口上的战争这个问题已经被个人学者政策制定者和组织在人类历史中追寻了很长时间在这项研究中我们尝试根据人工智能 AI 和大型语言模型 LLM 的最新进展来回答这个问题本文试图通过使用人工智能和大型语言模型回答

LLM 人工智能

如何对大模型进行评估下

如果从实现评估的纬度来分可以将不同类型的评估分为三类具体如下所示更多理论的详细信息可以参见博客如何对大模型进行评估上接下来就从第一种类型出发看看评估脚本是如何实现的这里分析的源代码是 Qwen的评估脚本如何使用选择题类型数据

LLM 大模型

A Survey of Text Watermarking in the Era of Large Language Models

本文是LLM系列文章针对 A Survey of Text Watermarking in the Era of Large Language Models 的翻译大语言模型时代的文本水印综述摘要 1 引言 2 文本水印的前言 3 当

综述文章 LLM 语言模型 人工智能 自然语言处理

AI分布式训练：DDP (数据并行）技术详解与实战

编者按如今传统的单机单卡模式已经无法满足超大模型进行训练的要求如何更好地更轻松地利用多个 GPU 资源进行模型训练成为了人工智能领域的热门话题我们今天为大家带来的这篇文章详细介绍了一种名为 DDP Distributed Data

技术干货 人工智能 分布式 LLM 白海科技

GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

编者按近年来深度学习应用日益广泛其需求也在快速增长那么我们该如何选择合适的 GPU 来获得最优的训练和推理性能呢今天我们为大家带来的这篇文章作者的核心观点是 Tensor Core 内存带宽和内存层次结构是影响 GPU 深度

技术干货 深度学习 人工智能 LLM Transformer

Textbooks Are All You Need

本文是LLM系列文章针对 Textbooks Are All You Need 的翻译课本是你全部所需要的摘要 1 引言 2 训练细节和高质量数据的重要性 3 对CodeExercise进行微调后的模型能力峰值 4 LLM评分对非常规

LLM 语言模型 人工智能

In-Context Retrieval-Augmented Language Models

本文是LLM系列文章针对 In Context Retrieval Augmented Language Models 的翻译上下文检索增强语言模型摘要 1 引言 2 相关工作 3 我们的框架 4 实验细节 5 具有现成检索器的上下文

LLM 知识图谱 人工智能 语言模型

使用 Docker 和 Alpaca LoRA 对 LLaMA 65B 大模型进行 Fine-Tune

这篇文章中我们来聊聊如何使用两张显卡来进行 LLaMA 65B 大模型的微调工作以及如何在一张普通的 4090 家用显卡上只花几个小时就能够完成 7B 模型的微调写在前面在之前的几篇文章里我们介绍过三种方式运行 Meta 开源

Docker 人工智能 LLaMA LLM Alpaca Lora