项目

这里展示了我的各种项目集合,帮助你更好地浏览相关主题的文章。如果你发现展开/折叠按钮无法点击,请刷新页面。

技术项目

我的技术相关项目

模型考古学

模型考古学系列文章

7 篇文章

模型考古学(一):大模型原理探赜

2025/1/13
深度学习

这篇博客探讨了大模型(如GPT系列)背后的神经网络基础,从神经网络的基本结构、反向传播算法、梯度下降法,到Transformer架构及其在大语言模型中的应用。文章详细解析了大模型的训练过程、参数优化以及如何通过海量数据提升模型性能。最后,回顾了大语言模型架构的发展历程,比较了不同模型(如BERT和GPT)的特点和应用场景。

模型考古学(二):视觉大模型发展梳理与Qwen2-VL论文解读

2025/1/22
深度学习

如果说「模型考古学」第一篇主要聚焦于大语言模型(LLM)的内部机制与演进脉络,那么本篇博客将拓宽视野,探求视觉大模型(Vision Large Language Model,VLLM)的技术原理和发展历程。在单纯的文本世界之外,视觉大模型融合了图像理解能力,赋予了AI“看”世界的眼睛,让模型理解世界的方式从一维的文字扩展到了二维的图像。

模型考古学(三):Agent 系统概述

2025/3/4
深度学习

本文探讨了Agent系统的发展历程、核心概念和技术架构,分析了从基于规则到LLM驱动的Agent演变,以及其在感知、决策、执行等方面的能力与挑战,展望了多智能体协作等未来发展方向。

模型考古学(四):RAG技术解析

2025/3/20
深度学习

本文将深入探讨RAG技术的原理、实现方式及其在实际应用中的优势与局限。

模型考古学(五):Minimax-01 模型技术报告简读

2025/3/22
深度学习

本篇博客简要解析了 Minimax-01 模型的架构设计,聚焦其在超长上下文处理中的性能表现与混合注意力机制的技术实现。

模型考古学(六):DeepSeek V3和R1技术报告浅析

2025/3/23
深度学习

本文深入解析 DeepSeek V3 和 R1 两大模型的创新点,涵盖架构、训练策略与推理能力,展现中国开源模型的强劲进展与高性价比潜力。

模型考古学(七):Qwen2.5-Omni技术报告解读

2025/3/27
深度学习

阿里小开了一款大模型,叫Qwen2.5-Omni,本篇将看下Qwen2.5-Omni的技术报告,讨论一下其中的创新点和Omni类模型的工程优势。

金融经济

包含我的交易投资笔记、金融经济领域的报告等