Transformer Python - 搜索 News

知乎 on MSN

如何评价 Claude Code 核心工程师「Bash即一切」的观点?

错误的，LLM可能永远都无法非常擅长写Bash。日常使用中，LLM给出的复杂Bash命令很容易遇到引号、转义搞不清楚的问题。这背后的原因是理论的。

12 天

在一台1970年代的PDP-11上训练Transformer要多久？答案是5.5分钟

试想一下，如果把当下大火的大模型技术带回 1970 年，会发生什么？彼时，没有 GPU、没有 CUDA，也没有浮点数，甚至没有任何深度学习框架，只有一台 PDP-11 小型机，以及一门几乎已经退出历史舞台的语言：汇编语言。

ZAKER

阿里 3 人小团队干翻 OpenAI:Qwen 成全球下载量最高的开源模

2025 年初，Qwen（通义千问）系列模型的总下载量突破 3 亿次，Hugging Face 上基于 Qwen 的衍生模型超过 9 万个。这个数字意味着什么？Llama 3 发布时同期衍生模型数量是它的三分之一。

知乎 on MSN

为什么我还是无法理解Transformer?

这个问题我真的想点赞。现在已经是2026了，看看这个圈子满世界都在炒作什么：万亿参数的稀疏模型，端侧本地跑大模型，长文本上下文能塞进去一整本书……连路上的大爷大妈都在聊龙虾。但我面试了这么多大模型微调甚至预训练的候选人，十个人里面起码有七个，其实是没有真正理解transformer的。

IT之家

Transformer 论文作者“菠萝哥”重造“龙虾”：Rust 搓出钢铁版，告别 ...

有多少龙虾在互联网上裸奔？AI 智能体带着你的密码和 API 密钥暴露给全网。 Transformer 作者 Illia Polosukhin 看不下去了。出手从零重构了安全版龙虾：IronClaw。 IronClaw 目前已在 GitHub 上开源，提供 macOS、Linux 和 Windows 的安装包，支持本地部署，也支持通过云端托管。

生物通

DeepCaps-Transformer：利用深度胶囊网络和Transformer模型进行文化文物解读

提出DeepCaps-Transformer框架，结合胶囊网络与Transformer模型，采用SMOTE/ADASYN平衡数据集，Squash CNN提取视觉特征，融合DCN与注意力 ...

生物通

基于多条件扩散Transformer的药物扰动转录组预测模型（PertDiT）：推动 ...

本研究提出一种创新的多条件扩散Transformer模型（PertDiT），通过整合预训练大语言模型的文本表征与创新的扰动融合模块，实现了基于药物文本信息的扰动转录组精准预测。该模型在转录组重建（R2）和基因表达变化预测（PCC(ln FC)）方面显著优于现有方法（如 ...

电子工程专辑

RT-DeTr实时端到端Transformer对象检测从训练到部署

官方的Backbone部分采用ResNet系列模型，Transformer部分采用标准的编码器与解码器结构，最后通过FFN直接预测，通过可学习NMS实现直接预测结果。百度在此基础上提出了实时DETR模型，最新版本为RTDeTRv2版本，其中RTDeTR已经被YOLOv8官方收录，支持按照YOLOv8~YOLO11系列 ...

搜狐

Python用Transformer、SARIMAX、RNN、LSTM、Prophet时间序列预测对比分析用电 ...

在数据驱动决策的时代，时间序列预测作为揭示数据时序规律的核心技术，已成为各行业解决预测需求的关键工具。从能源消耗趋势分析到公共安全事件预测，不同领域的数据特征对预测模型的适应性提出了差异化挑战。本文基于某咨询项目的实际需求，通过 ...

电子工程专辑

【光电智造】Transformers基础知识+环境安装

如果C盘有空间，最好安装在C盘，且安装目录中不能有中文。安装时勾选"将其添加到PATH" 在一个单独的环境中，能使用pip就尽量使用pip，实在有问题的情况，例如没有合适的编译好的系统版本的安装包，再使用conda进行安装，不要来回混淆； 30XX、40XX显卡，要 ...

GitHub

Attention机制与transformer_2_17.ipynb

NLP-with-Python / Chapter 7 Attention机制与transformer / Attention机制与transformer_2_17.ipynb Cannot retrieve latest commit at this time.

一些您可能无法访问的结果已被隐去。

显示无法访问的结果