OpenAI News
OpenAI 发布 ChatGPT 新记忆系统,能更智能地记住用户偏好,使对话保持上下文新鲜与相关。
推荐理由:OpenAI 核心产品更新,直接提升用户体验,值得关注其对 AI 助手交互范式的影响。
OpenAI News
OpenAI 发布 ChatGPT 新记忆系统,能更智能地记住用户偏好,使对话保持上下文新鲜与相关。
推荐理由:OpenAI 核心产品更新,直接提升用户体验,值得关注其对 AI 助手交互范式的影响。
MIT Tech Review AI
报道指出,攻击者利用 Meta 的 AI 客服代理窃取 Instagram 账户,通过简单提问即可将账户链接到恶意邮箱。
推荐理由:揭露了 AI 应用下的重大安全漏洞,对开发者和企业有极强警示作用。
Anthropic Research
Anthropic 发布研究,展示如何通过特定方法让 Claude 在化学领域具备专业能力,推动 AI 在科学中的应用。
推荐理由:展示了 AI 在垂直科学领域的深度应用,具有前沿研究价值。
Claude Blog
Anthropic 分享其销售人员如何通过 Claude Code 重构团队工作流,提升 GTM 工程效率。
推荐理由:提供了 AI Agent 在企业内部落地的实用案例,对 GTM 团队具有直接启发。
GitHub Trending
开源项目,可让 AI Agent 研究 Reddit、X、YouTube、HN 等平台上的任何话题,并综合生成总结。
推荐理由:高可行动性的开源工具,可直接用于构建信息聚合与摘要 Agent。
GitHub Trending
基于 TurboQuant 的向量索引库,使用 Rust 编写并提供 Python 绑定,旨在提升向量检索性能。
推荐理由:面向 AI 检索场景的高性能工具,Rust 实现,适合对向量库有性能需求的开发者。
Hacker News
一个通过示例学习 Zig 语言的开源教程,适合新手入门。
推荐理由:高可行动性的学习资源,适合想快速上手 Zig 的程序员。
X 推文 (AttentionVC)
文章指出,OpenAI 的一个小团队在 2026 年 2 月通过 AI Agent 生成了 100 万行生产代码,人类的角色已转变为设计代理系统。
推荐理由:呈现了 AI 编程的最新现实,对开发者理解行业趋势有启发。
HuggingFace Trending Papers
论文提出,当前搜索代理的检索方法继承自非智能体 IR,应转向直接与语料交互的「交互空间」范式。
推荐理由:为搜索引擎与 Agent 的融合提供了新视角,适合研究者跟进。
Hugging Face Blog
一篇博客文章,模拟了五个模型构成的经济系统中出现的崩溃与涌现行为,探索 AI 模型交互的复杂性。
推荐理由:趣味性的模拟实验,有助于理解多 Agent 系统的潜在动力学。
Python · ★ 33,237 · 🍴 2,734 · 📈 3,558 stars today
AI agent skill that researches any topic across Reddit, X, YouTube, HN, Polymarket, and the web - then synthesizes a grounded summary
中文介绍 一款 AI Agent 技能,可跨 Reddit、X、YouTube、HN、Polymarket 和网页调研任意主题,并综合生成有依据的摘要。适合需要快速掌握某话题近期舆论动态的研究人员或分析师。
Python · ★ 8,068 · 🍴 759 · 📈 1,730 stars today
A vector index built on TurboQuant, written in Rust with Python bindings
中文介绍 基于 TurboQuant 的向量索引,使用 Rust 编写并提供了 Python 绑定。专为高性能向量搜索设计,适用于需要快速近似最近邻检索的 AI 应用或推荐系统。
Python · ★ 12,127 · 🍴 953 · 📈 481 stars today
Agent Skills for Google products and technologies
中文介绍 Google 官方推出的 Agent Skills 集合,用于增强 AI 代理在 Google 产品与技术上执行任务的能力。开发者可集成这些技能,让 Agent 操控 Google 服务。
TypeScript · ★ 13,277 · 🍴 930 · 📈 649 stars today
Desktop app to manage markdown knowledge bases
中文介绍 桌面端 Markdown 知识库管理应用,专注于以本地方式维护个人知识。适合笔记爱好者、研究人员和写作者,提供比纯文件系统更友好的浏览与组织体验。
Python · ★ 23,655 · 🍴 1,997 · 📈 961 stars today
Give your AI agent eyes to see the entire internet. Read & search Twitter, Reddit, YouTube, GitHub, Bilibili, XiaoHongShu — one CLI, zero API fees.
中文介绍 给 AI Agent 赋予“眼睛”,一条 CLI 命令即可搜索并阅读 Twitter、Reddit、YouTube、GitHub、Bilibili、小红书等全网内容,无需 API 费用。适合想为 Agent 解锁信息抓取能力的开发者。
TypeScript · ★ 15,243 · 🍴 2,148 · 📈 337 stars today
Agentic AI Infrastructure for magnifying HUMAN capabilities.
中文介绍 构建个人 AI 基础设施的框架,旨在通过 Agent 系统增强人类能力而不是取代人类。适合希望搭建自主 AI 助手来辅助学习、决策或创作的个人用户。
JavaScript · ★ 50,051 · 🍴 10,296 · 📈 665 stars today
AI-powered job search system built on Claude Code. 14 skill modes, Go dashboard, PDF generation, batch processing.
中文介绍 基于 Claude Code 的 AI 驱动求职系统:14 种技能模式、Go 仪表盘、PDF 生成和批量处理。面向求职者自动化简历优化、岗位匹配与申请流程。
★ 12,405 · 🍴 1,484 · 📈 112 stars today
PM Skills Marketplace: 100+ agentic skills, commands, and plugins — from discovery to strategy, execution, launch, and growth.
中文介绍 PM Skills Marketplace 提供 100+ 种 Agent 技能、命令和插件,覆盖从洞察到战略、执行、发布及增长的完整产品管理流程。适合产品经理利用 AI 提升工作效率。
JavaScript · ★ 2,205 · 🍴 278 · 📈 296 stars today
OpenAI Plugins
中文介绍 OpenAI 官方插件集合,为 ChatGPT 等模型扩展外部工具调用能力。开发者可通过插件让模型调用实时数据、执行操作或访问第三方服务。
Python · ★ 3,204 · 🍴 191 · 📈 103 stars today
Find the local LLM that actually runs and performs best on your hardware. Ranked by real, recency-aware benchmarks, not parameter count. One command, run it instantly.
中文介绍 一行命令即可找出本地硬件上实际运行最快、效果最好的 LLM,评估基于真实且时效性强的基准测试,而非参数数量。适合想本地部署 LLM 但不知如何选择的用户。
Python · ★ 54,709 · 🍴 7,146 · 📈 452 stars today
The best-benchmarked open-source AI memory system. And it's free.
中文介绍 经基准测试表现最佳的开源 AI 记忆系统,免费使用。旨在让 AI 应用拥有长期记忆能力,适合构建需要持久上下文的对话、助手或游戏角色。
Python · ★ 42,002 · 🍴 3,764 · 📈 957 stars today
We write your reusable computer vision tools. 💜
中文介绍 可复用的计算机视觉工具集,帮你高效处理检测、分割、分类等视觉任务的预处理、可视化与后处理。面向 CV 开发者,省去重复造轮子的时间。
TypeScript · ★ 33,921 · 🍴 4,290 · 📈 578 stars today
The Frontend Stack for Agents & Generative UI. React, Angular, Mobile, Slack, and more. Makers of the AG-UI Protocol
中文介绍 面向 Agent 与 Generative UI 的前端栈,支持 React、Angular、移动端、Slack 等。提供 AG-UI 协议,让开发者轻松构建 AI 驱动的交互界面。
Roff · ★ 72,876 · 🍴 16,316 · 📈 593 stars today
所有小初高、大学PDF教材。
中文介绍 中国小学、初中、高中及大学全科目 PDF 教材集合。适合学生、教育工作者或研究者快速获取版本统一的电子教材资源。
Python · ★ 35,519 · 🍴 4,328 · 📈 154 stars today
A visual, example-driven guide to Claude Code — from basic concepts to advanced agents, with copy-paste templates that bring immediate value.
中文介绍 可视化的 Claude Code 入门指南,从基础概念到高级 Agent 用法,附带可直接复制粘贴的模板。适合想快速上手 Claude Code 的开发者。
Rust · ★ 47,876 · 🍴 5,045 · 📈 699 stars today
an open source, extensible AI agent that goes beyond code suggestions - install, execute, edit, and test with any LLM
中文介绍 开源的、可扩展的 AI Agent,超越代码建议:能安装、执行、编辑和测试,支持任意 LLM 后端。适合需要自主操作系统的开发者或 DevOps 工程师。
👍 1
Retrieval for search agents is still inherited from non-agentic information retrieval: a retriever ranks the corpus and the agent reads a small set of returned documents. Recent direct corpus interaction (DCI) work shows that agents can instead interact with the raw corpus through shell tools such a
中文介绍 该研究指出代理搜索中的检索仍沿用非代理信息检索方法,近期直接语料交互(DCI)工作表明代理可通过原始语料直接交互以提升检索效果。
👍 23
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexi
中文介绍 AnchorWorld框架提出通过视图进化定制增强具身自我中心世界模拟中的交互可控性,以应对实际场景中交互式世界建模的多功能需求。
👍 37
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation testbed designed for general-purpose instruction-based audio editing. Spurred by the shift toward intelligent creation, interactive editing has rapidly expanded from visual domains, pioneere
中文介绍 MMAE是一项大规模多任务音频编辑基准,作为首个面向通用指令音频编辑的综合评估测试平台,将交互式编辑从视觉扩展到音频领域。
👍 3
Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, requiring complete scene observations or predefined video clips. In this paper, we present an online 3D vision-language model that enables real-time spatial understanding from streaming video
中文介绍 Stream3D-VLM提出在线3D视觉语言模型,利用增量几何先验实现实时空间理解,突破了传统3D大模型需完整场景或预定义视频的离线限制。
👍 62
Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. However, they struggle to function as off-the-shelf embedding models, leading to suboptimal performance on massive text embedding benchmarks. In this paper, we identify a potential cause underlyi
中文介绍 研究发现大语言模型的解嵌入矩阵可作为文本嵌入的特征透镜,尽管模型在零样本任务上表现出色,但作为现成嵌入模型时仍存在性能瓶颈。
👍 12
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require models to handle sparse evidence, long-range dependencies, multimodal alignment, and
中文介绍 该研究探讨多模态大模型(MLLM)在人类视角视频理解中的应用,处理稀疏证据、长程依赖和多模态知识密集型视频场景。
👍 4
LLM-driven software engineering agents have become a central testbed for real-world language-model capability, yet their training remains limited by the availability of high-quality SWE tasks. Existing synthetic data methods typically create tasks through fixed mutation or bug-injection procedures,
中文介绍 Socratic-SWE提出通过跟踪派生代理技能实现自进化编码代理,应对软件工程任务中高质量训练数据不足的问题。
👍 11
We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to bui
中文介绍 dots.tts是2B参数的连续自回归文本转语音基础模型,在连续潜空间中建模语音,创新包括多尺度音频VAE训练。
👍 0
Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instructi
中文介绍 Compress-Distill研究在知识蒸馏前对推理链进行后验压缩,使用Qwen3.5-397B-A17B等教师模型生成约28.3万条正确轨迹,以减少学生模型输出长度。
👍 12
Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations, train larger Vision-Language-Action (VLA) models, and expect broader generalisation. In this position paper, we argue that this framing is incomplete. The central bottleneck is not only poli
中文介绍 该立场文章认为通用机器人智能不仅是策略扩展问题,仅靠大规模演示和VLA模型不足以实现泛化,需超越现有框架。
👍 11
Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through sp
中文介绍 研究发现图生视频扩散模型中,两步生成比50步输出物理一致性更好,揭示视觉细化前锁定运动先验可能破坏物理规律。
👍 31
Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputants' shifting emotions, intentions, and context. Existing testbeds rely on a few expert-authored domains, vary mainly strategic posture, and score every turn against every topic, introducing
中文介绍 SoCRATES框架旨在评估LLM调解者,考虑跨领域和社会认知差异,应对调解中实时情绪、意图变化带来的评估挑战。
👍 9
Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language Models (LLMs) to recover causal graphs of external-world processes. Instead, in this paper, we use causal graphs to model LLM inference itself, providing stakeholders with a transparent vie
👍 11
While Vision-Language Models (VLMs) have shown strong visual reasoning capabilities, their spatial reasoning abilities remain largely constrained to the observed images and text-oriented chain-of-thought. They often struggle to infer unobserved layouts, maintain cross-view consistency, and reason fr
👍 15
Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated r
👍 15
Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-erro
👍 0
In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasonin
👍 11
Self-evolving agents requires adaptation after deployment, but existing approaches assume a usable learning loop, such as curated skills, successful trajectories, or verifier signals. Real open-world deployments may provide none of these, offering only a task prompt. In this work, we study open-worl
👍 1
In this paper, we study regret minimization in repeated games with adaptive opponents who can respond based on histories of play. The standard metric of external regret in online learning is known to fail to capture such adaptivity. To account for players' counterfactual reasoning, we introduce {\tt
👍 13
Progress in genomic foundation models is difficult to assess due to fragmented benchmarks, incompatible evaluation protocols, and task-specific reporting. As a result, claims of superiority or generality across models are often not directly comparable. We introduce GENEB, a large-scale diagnostic be
👍 9
Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as mater
👍 2
LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained
👍 1
Agentic language model systems alternate between two structurally distinct step types: structured tool calls (short, deterministic, low perplexity) and open-ended planning/reasoning steps (long, complex, high perplexity). Despite this heterogeneity, current inference systems apply identical compute
👍 0
Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, offering a promising alternative to costly and slow human surveys. Despite their scalability, current LLM-based simulation methods fail to capture social diversity, producing flattened inter-gr
👍 1
Agentic LLMs with web search change the threat model for text anonymization: weak contextual cues can become cross-referenceable evidence for re-identification, yet those same details also carry downstream analytic value of the text. Existing defenses either remove explicit identifiers, perturb text
👍 0
Agentic search systems iteratively interact with retrieval models to answer complex queries. Despite substantial progress, optimizing retrievers for agentic search remains challenging, often requiring heavy co-training or gold-standard annotations that limit real-world applicability. We propose Crit
👍 1
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderst
👍 2
Humans are the bottleneck in building and improving AI. Both the models and the agents that wrap them are written, tuned, and corrected by people. The long-horizon goal of an AI that can figure out how to improve itself remains open. Two largely disjoint research lines attack this bottleneck. The ha
👍 3
Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (
👍 3
Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the confli
@elpresidank · 116 粉丝 · 2.9M 阅 · 543 赞 · 35 转
Most AI agent memory is built on embeddings. And there's now a proof that this entire class of system is going to forget what you stored in it — and confidently make up things you never stored at all.
中文介绍 证明基于嵌入向量的AI代理记忆系统存在根本缺陷:必然会遗忘已存储内容并自信地捏造从未存储的信息。作者从拓扑结构视角分析记忆失效的数学原因,并提出结构化的解决方案。
@DamiDefi · 96.5K 粉丝 · 2.3M 阅 · 584 赞 · 80 转
The number that stopped me was not the $2 trillion valuation. It was $791 million. That is what SpaceX made in net income in 2024. A profitable, growing aerospace company with a genuine moat in launch
@sairahul1 · 111.8K 粉丝 · 710.8K 阅 · 509 赞 · 97 转
How To Become An AI Engineer in 2026. Without a CS degree. Without a bootcamp. Without knowing what a transformer is today. Here's what nobody tells you: The companies hiring right now don't need
中文介绍 非CS背景如何成为2026年AI工程师。指出公司真正需要的是能搭建和调试AI产品的人,而非理论专家。提供从零基础到实战的路线图,强调项目经验而非学历。
@0xCodez · 3.3K 粉丝 · 637.2K 阅 · 510 赞 · 59 转
Most Claude Code users still write their workflows by hand. They chain prompts, copy outputs, paste them into the next prompt, fix what went wrong, repeat. 9 out of 10 builders haven’t tried Dynamic
@prukalpa · 23.1K 粉丝 · 583.2K 阅 · 506 赞 · 80 转
A field guide to what it is, what it is not, and where it fits in your AI architecture. I have had some version of the same conversation with a CIO almost every day this year. Their team has read
中文介绍 企业上下文层的实用指南:它是什么、不是什么,以及在AI架构中的位置。针对CIO们常见的困惑——团队了解概念但不知如何落地,给出清晰的定位和架构建议。
@sairahul1 · 111.8K 粉丝 · 546.4K 阅 · 536 赞 · 94 转
In February 2026, a small OpenAI team shipped 1 million lines of production code. They didn't write a single line by hand. The AI agents wrote it. The humans designed the system that made the agents
中文介绍 以OpenAI团队2026年用AI代理完成100万行生产代码为例,阐述「护具工程」——定义目标、设计系统让代理自主执行,核心在于人类的系统设计思维。
@theonejvo · 22.1K 粉丝 · 504.3K 阅 · 861 赞 · 1 转
Over the past year, @pewdiepie, has been turning into one of the most visible champions of private, self-hosted computing, and it has been a genuine pleasure to watch. What began in late 2025 as an
中文介绍 演示如何用恶意Cocomelon网站攻击PewDiePie的AI代理护具,再帮助修补。强调自托管计算的安全挑战,从实际案例中揭示代理护具的漏洞并给出修复建议。
@Saboo_Shubham_ · 116.2K 粉丝 · 263.3K 阅 · 517 赞 · 74 转
The frontend used to be a fixed thing. Designers drew it. Engineers built it. Users got what shipped. That's over. The interfaces shipping in 2026 are drawn partly by the agent itself, in real time,
中文介绍 2026年前端已不再是固定设计:界面由AI代理实时绘制。固定UI被生成式UI取代,工程师的角色从实现设计变为设计让代理能自主生成界面的系统。
@maubaron · 16.9K 粉丝 · 233.8K 阅 · 506 赞 · 19 转
Our YouTube channel has 125k subscribers and we've never made or uploaded a single video ourselves. This is a completely automated system. It is this very same strategy that made us the first app
中文介绍 分享完全自动化的YouTube频道运营系统,无需手动制作或上传视频即可获得12.5万订阅。这是他们成为首个实现此类自动化的App的核心策略。
@garrytan · 853.3K 粉丝 · 180.6K 阅 · 503 赞 · 43 转
In January I got back into coding and I built Garry's List. Over five hundred thousand lines of Rails and the tests to police it. I was proud of it. I shouldn't have been. The thing worth being proud
中文介绍 不要为AI代理建造富士康式的工厂——作者亲自编写50万行Rails代码后反思:真正值得骄傲的不是代码量,而是你定义的目标和设计的系统。强调目标导向而非手写代码。
@intuitiveml · 6.4K 粉丝 · 171.3K 阅 · 524 赞 · 70 转
Most agent frameworks today assume a desktop. One user, one machine, one process. The agent runs while the laptop is open, writes to a local filesystem, holds API keys in environment variables, and
中文介绍 构建云代理基础设施的经验总结:大多数框架假设桌面环境——单用户、单机、单进程。上云后需处理多租户、持久状态、API密钥管理及网络延迟,与桌面环境有本质差异。
@dkundel · 19.3K 粉丝 · 116.9K 阅 · 523 赞 · 40 转
We launched the goal mode (or /goal) as a way to help you have Codex drive towards a concrete outcome. When you set a goal Codex will continue to work until the goal is achieved, whether that takes
中文介绍 Codex的「/goal」模式详解:设置具体目标后,Codex会持续工作直到达成,自动迭代、调试,无需手动干预。适合从零到一完成明确产出的任务。
@mem0ai · 17.6K 粉丝 · 82.8K 阅 · 520 赞 · 60 转
Agent harnesses are where AI software actually runs. Cursor, Devin, Claude Code, Codex: these environments handle context, orchestrate tools, coordinate agents, and increasingly, manage memory. The
中文介绍 AI代理护具是代码实际运行的环境(如Cursor、Claude Code),会处理上下文、工具编排、代理协调及内存管理。综述当前主流护具的内存机制差异与优化方向。
@trq212 · 263.1K 粉丝 · 75.7K 阅 · 542 赞 · 36 转
Last week, we released dynamic workflows in Claude Code. Claude can now write its own harness on the fly, custom-built for the task at hand. While the default Claude Code harness is built for coding,
中文介绍 Claude Code支持动态工作流:代理可自行编写护具,为每个任务定制执行环境。相比固定编程模式,大幅提升复杂任务的自动化程度和适应性。
@drfeifei · 738.0K 粉丝 · 72.2K 阅 · 699 赞 · 144 转
“The world is everything that is the case.” — Ludwig Wittgenstein, Tractatus Logico-Philosophicus, 1921 The world is not made of words. In an earlier essay, we argued that spatial intelligence is AI’s
中文介绍 提出世界模型的功能分类法,从认知科学和AI角度系统梳理不同层次的世界模型——从简单物理规律到复杂社会模拟,为AI的空间智能和通用推理提供理论框架。
@sydneyrunkle · 7.5K 粉丝 · 69.5K 阅 · 511 赞 · 74 转
Building useful agents is largely about customization: connecting your agent to the right context, data, and environment(s) for the task at hand. At its core, an agent is a model calling tools in a
中文介绍 构建自定义代理护具的核心:连接正确的上下文、数据与环境。详细讲解从模型调用工具到完整代理系统的构建步骤,强调定制化是实用代理的关键。
@itsreallyvivek · 3.6K 粉丝 · 65.8K 阅 · 521 赞 · 28 转
A few days ago I wrote that getting into a frontier AI lab mostly comes down to two things: proven research and trench engineering. The more I think about it, the less these feel like separate skills.
中文介绍 进入前沿AI实验室的核心是「扎实研究」与「壕堑工程」的结合,两者并非分离技能——最好的工程师既懂理论又能亲手调优系统,给出具体准备建议。
@mvanhorn · 30.8K 粉丝 · 45.6K 阅 · 7d 曝光 45.6K
WTF Is a Loop? Peter Steinberger vs. Boris Cherny
@Mnilax · 7.3K 粉丝 · 43.5K 阅 · 7d 曝光 43.5K
17 prompts that make Hermes run while you sleep (copy-paste inside)
@rasbt · 459.9K 粉丝 · 50.9K 阅 · 7d 曝光 50.9K
Do AGENTS.md Files Actually Help Coding Agents?
@sairahul1 · 111.8K 粉丝 · 546.4K 阅 · 7d 曝光 546.4K
Harness Engineering: What Every AI Engineer Needs to Know in 2026
中文介绍 以OpenAI团队2026年用AI代理完成100万行生产代码为例,阐述「护具工程」——定义目标、设计系统让代理自主执行,核心在于人类的系统设计思维。
@GeekCatX · 14.3K 粉丝 · 69.7K 阅 · 7d 曝光 69.7K
如何使用 Codex 快速入门任何一个领域
@ByteMohit · 2.0K 粉丝 · 43.3K 阅 · 7d 曝光 43.3K
I Built an Agentic Harness From Scratch. That Taught Me What Agents Actually Are
@sheriyuo · 8.6K 粉丝 · 30.6K 阅 · 7d 曝光 30.6K
RL Interview Questions 2026
@AYi_AInotes · 50.3K 粉丝 · 149.6K 阅 · 7d 曝光 149.6K
我把全网的 Codex Skill 扒了一遍:最该装的几个、安装方法、资源仓库都整理好了,看这一篇就够了!
中文介绍 整理全网Codex Skill资源:精选最值得安装的几个技能、详细安装方法以及资源仓库链接,是一份面向新手的汇总指南。
@weiyux2021 · 53.9K 粉丝 · 64.8K 阅 · 7d 曝光 64.8K
真香,都去用Claude搞闲鱼店铺!
@maubaron · 16.9K 粉丝 · 233.8K 阅 · 7d 曝光 233.8K
How to get 100k YouTube subscribers in 3 hours (The Complete Guide)
中文介绍 分享完全自动化的YouTube频道运营系统,无需手动制作或上传视频即可获得12.5万订阅。这是他们成为首个实现此类自动化的App的核心策略。
@itsreallyvivek · 3.6K 粉丝 · 65.8K 阅 · 7d 曝光 65.8K
some notes on getting into frontier ai labs
中文介绍 Hermes Agent 推出新超级应用,DeepSeek v4 性能追赶 Opus 4.8。
中文介绍 ChatGPT 与 Codex 正在合并,此举可能彻底改变编程和 AI 交互的方式。
中文介绍 Anthropic 讲解如何在 GTM(Go-to-Market)工程中应用 Claude,展示 AI 在销售和市场策略中的实际用例。
中文介绍 Anton Osika(Lovable 创始人)在节目中探讨问题解决者的角色与 AI 协作的未来。
中文介绍 通过 Claude 可视化团队思维过程,提升协作和理解效率。
中文介绍 Anthropic 讲解如何在 GTM(Go-to-Market)工程中应用 Claude,展示 AI 在销售和市场策略中的实际用例。
中文介绍 Anton Osika(Lovable 创始人)在节目中探讨问题解决者的角色与 AI 协作的未来。
中文介绍 通过 Claude 可视化团队思维过程,提升协作和理解效率。
中文介绍 讨论将 AI 智能体用作「游戏大师」的概念,探索其在游戏和交互中的潜能。
中文介绍 DeepMind 新 AI 模型发现一种新的思维方式,可能带来认知过程的突破。
中文介绍 介绍 AI 系统「Co-Scientist」,其可能颠覆科学研究过程中的合作模式。
中文介绍 Claude Opus 4.8 版本宣称在减少生成不真实内容方面取得进展。
中文介绍 Hugging Face 博客文章探讨了一个五模型经济体模拟中的崩溃与涌现现象,涉及控制与突发行为。
中文介绍 开源社区支持 OpenEnv 项目,用于智能体强化学习(Agentic RL),推动相关技术发展。
中文介绍 TLDR AI 简报:OpenAI 获政府持股,Google 达成计算交易,微软推出 Scout 产品。
a quiet day of RSI.
中文介绍 Latent Space 简报指出当日 AI 领域较为平静,相对强度指数(RSI)表现平稳。
Your broken harness is actively making the model worse. Here's what I keep seeing after years of eyeballing trajectories, and what you need to fix.
中文介绍 文章指出低质量强化学习环境(RL环境)会损害模型性能,并提供多年经验总结的修复建议。
On June 5, 404 Media reported that attackers had been using Meta’s AI customer support agent to steal Instagram accounts. Their approach was simple: They asked the agent to link the accounts to email addresses that they controlled, and the agent complied. One attacker broke into the dormant Obama Wh
中文介绍 MIT 技术评论报道:攻击者利用 Meta 的 AI 客服代理,通过简单指令将 Instagram 账号关联到其控制的邮箱,实现账号盗取。
a quiet day
中文介绍 Latent Space 另一期简报再次提及当日 AI 领域平静。
**Anthropic's Mythos/Opus cycle** sparked mixed reactions with praise for **Claude Mythos**'s one-shot workflows and concerns over **Opus 4.8** benchmark regressions. **Opus 4.7** showed strong chemistry task performance, "making Claude a chemist." **Sakana AI** launched an **RSI Lab** focusing on r
中文介绍 Smol AI 新闻:Anthropic 的 Mythos/Opus 模型周期引发热议,Opus 4.8 出现基准回退,Sakana AI 推出递归自我改进(RSI)项目。
How one Anthropic seller rebuilt his team's workflows with Claude Code
中文介绍 Anthropic 销售人员分享如何使用 Claude Code 重建团队工作流程,提升效率。
The Claude Cowork product guide
中文介绍 Anthropic 发布 Claude Cowork 产品指南,介绍其功能与使用方法。
Jun 5, 2026ScienceMaking Claude a chemist
中文介绍 Anthropic 研究展示如何将 Claude 模型应用于化学任务,使其表现出化学家级别的能力。
中文介绍 TLDR AI 简报:Anthropic 模型 Oceanus 泄露,ChatGPT 具备“梦境”功能,递归自我改进技术取得进展。
We talk with the VendingBench authors on evaling Claudes from Haiku to Mythos, and how they build leading, and lasting, frontier evals from scratch.
中文介绍 Andon Labs 的 Lukas Petersson 和 Axel Backlund 讨论 VendingBench 评测集,评估从 Haiku 到 Mythos 的 Claude 模型,并介绍前沿评测构建方法。
中文介绍 NVIDIA 发布 Nemotron 3.5 Content Safety,一款可定制的多模态安全模型,旨在提升企业级 AI 内容安全。
中文介绍 ServiceNow AI 发布 EVA-Bench Data 2.0,覆盖3个领域、121个工具和213个场景,用于智能体评估。
7 回复 · 程序员 节点
15 回复 · 程序员 节点
20 回复 · 程序员 节点
44 回复 · 程序员 节点
26 回复 · 程序员 节点
17 回复 · Apple 节点
19 回复 · Apple 节点
8 回复 · Apple 节点
45 回复 · Apple 节点
12 回复 · Apple 节点
问题是这样的 从 2.1.140+ (大约 144)开始 发现 Bash权限审批的弹窗搁那不弹出来还卡住了 现象是 ⏺ Bash(tar tzf /Users/haleclipse/WorkSpace/Node/ClaudeCodeRev/rc-server/dist/rc-server-0.1.0.tgz | wc -l; tar tzf /Users/haleclipse/WorkSpace/Node/ClaudeCodeRev/rc-ser…) ⎿ Waiting… ✶ Frosting… (5m 54s · ↓ 2.0k tokens) 嗯 就硬 Waiting… 不走了 头回发现的时
有人跟我说,5年 GitHub 账号没多少人的,能进的基本上之前也都进过了。我信了,开了这个渠道,结果 6 个小时整了差不多 5k 人进来?GitHub oauth API 都搞出 Rate limit 了? 这玩意据说是 5000次/1H 啊,这也能爆掉?幸亏 5.1 的服务器扩容给力。 这指定是被作局了,这另一条腿我根本都不敢出了。 当然,还是要欢迎新来的佬友,请务必仔细看一看我们的社区准则,希望你们在这里玩得愉快: https://linux.do/guidelines 300 个帖子 - 273 位参与者 阅读完整话题
快去看看有没有更加流畅更加舒适 但是,之前数据库是sqlite的,现在改成了pg,所以,咳咳,有部分数据丢失了,不知道二星要升三星的用户,时间会不会重置23333 特别感谢: @ouyangqiqi 137 个帖子 - 132 位参与者 阅读完整话题
让 GPT 帮我爬一点资源放到我的网站上,非扭扭捏捏说没授权,我突发奇想下载了一个版权授权的模板,随便改改,居然把 GPT 忽悠过去了~ 25 个帖子 - 22 位参与者 阅读完整话题
每天摸鱼都会刷L站,之前写了十几次小作文(试过不同风格,我甚至都假装大学生了),每次都是真情流露,手写无AI润色,一度怀疑账号是不是被拉黑了,最终用过四个邮箱,都还是不过,本来都放弃了,结果也是赶上了这波好福利,立马注册进来 138 个帖子 - 127 位参与者 阅读完整话题
各位佬好,我是新注册论坛的萌新。 本人是长沙执业律师、专利代理师。刚来论坛,也没什么技术资源能分享,想着可以发挥一点自己的专业作用,给有需要的佬们提供一些免费的法律咨询服务。 我主要擅长的方向包括: 民商事纠纷 公司法、股权、合同纠纷 人身损害赔偿 劳动争议 知识产权、商标、专利、著作权相关问题 如果佬们平时遇到一些法律问题,比如合同能不能签、劳动仲裁怎么处理、公司股权怎么安排、被侵权了怎么办、知识产权怎么保护等,都可以简单问问。我会尽量从律师实务角度给一些初步判断和处理思路。 当然,免费咨询仅限于一般性法律分析和方向建议,不等同于正式委托代理;涉及具体案件材料、诉讼策略或者复杂法律关系的,还
本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 #公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在 QQ、TG 等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 是 我帖子内的项目介绍,AI 生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 彻底疯狂 有人说我这个公益 等这波风
之前写了两次作文没过,估计字太少了…,现在新规来了就注册了,终于不是游客了 263 个帖子 - 251 位参与者 阅读完整话题
各位佬,因为我个人精力的原因无法保证 sla,也有佬友评论吐槽过这一点,所以暂时取消 vip 订阅,另外说明一下,vip 订阅只是用来提高 rpm的,并不是充值,无法保证 sla 自然要取消,但是已经订阅的不受影响哈,其实各位正常使用根本就不用订阅 vip,普通分组的 rpm 限制为 10 应该都已经够用啦。 https://shop.aini8.com 活动的原因并不是因为 bug team 哈,已经进展好几天了,原因是我们要进行架构升级,升级之前就一直有这个活动,各位佬看清楚小店的商品说明再购买~ 44 个帖子 - 33 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 AI PPT赛道终结者,史上最最最强PPT Skill!!! 使用GPT生成豪华的图片格式PPT,然后转换为完全可编辑的PPTX文件,效果几乎完美。 本技能是个技能包,包含以下3个技能,可以拆分使用和优化: 技能 作用
26 points · 4 comments
12 points · 0 comments
17 points · 1 comments
36 points · 10 comments
29 points · 2 comments
170 points · 50 comments
103 points · 56 comments
129 points · 37 comments
99 points · 26 comments
213 points · 78 comments
508 points · 251 comments
128 points · 61 comments
211 points · 38 comments
331 points · 165 comments
241 points · 135 comments
239 points · 40 comments
137 points · 23 comments
737 points · 335 comments
258 points · 153 comments
Hey HN!Lathe is an experiment in using LLMs to teach me something new, instead of doing the work for me. It generates a hands-on, source-backed tutorial for any technical topic you want to learn. Then you work through it yourself by reading and typing the code by hand (gasp) in a local UI built for
406 points · 93 comments
6 points · 2 comments
44 points · 6 comments
54 points · 4 comments
95 points · 8 comments
212 points · 74 comments
After 25 years of making other people's pancake recipes - always yearning for more tang, more fluff, and more predictability - I decided to derive the pancake recipe from the chemistry.You mark checkboxes for what you have on hand (ricotta, sour cream, kefir, buttermilk, yogurt, cottage cheese,
6 points · 0 comments
48 points · 8 comments
52 points · 10 comments
NVIDIA 正式发布 Nemotron 3.5 Content Safety,这是一款可定制的多模态安全模型,专为企业级 AI 应用设计。该模型能够处理文本、图像等多种模态的内容安全检测,帮助企业构建更安全的 AI 系统。NVIDIA 在 Hugging Face 上开源了该模型,开发者可根据自身业务需求进行微调与部署,降低 AI 内容风险。
dots.tts 技术报告公开,这是一个拥有 2B 参数的连续自回归文本转语音(TTS)基础模型。区别于传统离散编码方案,dots.tts 在连续隐空间中直接建模语音,创新地采用多尺度音频 VAE 训练方法,实现了更高自然度的语音合成效果。该模型为语音交互应用提供了强大的底层能力。
TLDR AI 简报报道,Anthropic 的一款未公开模型 Oceanus 信息遭到泄露。同时,ChatGPT 被曝正在开发「梦境」功能,可让模型在离线状态下进行内部思考与自我改进。此外,递归自我改进技术(RSI)取得新进展,Sakana AI 等机构正在探索让 AI 自主提升性能的路径。
Smol AI 新闻指出,Anthropic 的 Mythos/Opus 模型周期引发社区热议。Opus 4.8 版本在某些基准测试中出现性能回退,引发对模型迭代质量的担忧。Sakana AI 的递归自我改进(RSI)项目同期成为焦点,该项目旨在让模型通过自我生成训练数据实现持续进化。
Anthropic 正式发布 Claude Cowork 产品指南,详细介绍了这款协作工具的功能与使用方法。Claude Cowork 旨在让 AI 以「同事」身份融入团队工作流,支持代码编写、文档分析、项目管理等多种任务。该指南帮助用户快速上手,充分发挥 AI 辅助效率。
Riley Brown 在视频中分析,ChatGPT 与 Codex 正在合并,这一举措将彻底改变编程和 AI 交互的方式。合并后的系统将融合自然语言对话能力与代码自动生成、执行功能,开发者可直接通过对话完成从需求分析到代码部署的全流程。
ServiceNow AI 在 Hugging Face 上发布了 EVA-Bench Data 2.0,这是一个覆盖 3 个领域、121 个工具和 213 个场景的智能体评估基准。该基准旨在全面测试 AI 智能体在真实企业环境中的工具使用与任务执行能力,为开发者提供标准化的评测体系。
CopilotKit 是一个面向 AI Agent 与生成式 UI 的开源前端栈,支持 React、Angular、移动端及 Slack 等多种平台。它提供 AG-UI 协议,让开发者轻松构建 AI 驱动的交互界面,使 AI 能够动态生成用户界面元素,实现真正的生成式交互体验。
Riley Brown 视频报道,Hermes Agent 发布了全新的超级应用,整合多种 AI 能力于一体。同时,DeepSeek v4 在多项性能指标上已接近或追上 Anthropic 的 Opus 4.8,展现出国产大模型的快速进步,进一步加剧了前沿模型竞争。
开发者 trq212 分享,Claude Code 现已支持动态工作流:AI 代理可自行编写执行护具(Harness),为每个任务定制专用执行环境。相比传统固定编程模式,这种自适应的方式大幅提升了复杂任务的自动化程度,使 Claude Code 能灵活应对各类脚本需求。
TLDR AI 简报披露多起重大行业动态:OpenAI 获得政府持股,标志着地缘政治与 AI 产业的深度捆绑;Google 与某方达成大规模计算资源交易,强化其云 AI 基础设施;微软推出 Scout 产品,进一步拓展其 AI 企业服务矩阵。多个巨头同步动作,显示行业竞争格局加速演变。
MIT 技术评论报道,攻击者利用 Meta 的 AI 客服代理实施了账号盗窃:通过简单指令诱导代理将 Instagram 账号关联到攻击者控制的邮箱,从而完成盗号。此事件揭示了 AI 代理在安全权限管理上的脆弱性,引发业界对 AI 安全防护体系的反思。
Latent Space 发布深度文章,指出低质量的强化学习(RL)环境会严重损害模型性能。作者基于多年经验,系统分析了常见 RL 环境设计缺陷(如奖励函数不合理、状态空间不完整),并提供了具体修复建议,帮助研究人员和工程师构建更稳健的 RL 训练系统。
Hugging Face 博客报道,开源社区正在积极支持 OpenEnv 项目,该项目专注于智能体强化学习(Agentic RL)。OpenEnv 提供标准化的环境和接口,使研究者和开发者能够更方便地训练和评估强化学习智能体,有望加速 Agentic RL 从实验室走向实际应用。
AttentionVC 的 X 推文指出,基于嵌入向量的 AI 代理记忆系统存在根本性缺陷:系统必然会遗忘已存储内容,并自信地捏造从未存储的信息。作者从拓扑结构视角分析了记忆失效的数学原因,并提出结构化解决方案,为构建更可靠的代理记忆系统提供了理论指导。
AI 工程师 sairahul1 以 OpenAI 团队使用 AI 代理完成 100 万行生产代码为例,阐述了「护具工程」(Harness Engineering)的概念。核心思想是:定义清晰目标、设计系统让代理自主执行,人类焦点应放在系统设计思维而非代码编写,这是 2026 年 AI 工程师的核心竞争力。
开发者 sairahul1 发布指南,为非计算机科学背景人士规划成为 2026 年 AI 工程师的路线图。他指出,公司真正需要的是能搭建和调试 AI 产品的人,而非理论专家。路线图从零基础开始,强调项目经验重于学历,并推荐了具体的学习资源和实战路径。
工程师 Saboo_Shubham_ 提出观点:2026 年的前端已不再固定,界面由 AI 代理实时绘制。固定 UI 被生成式 UI 取代,前端工程师的角色从实现设计转变为设计系统——让 AI 能自主生成用户界面。这一转变将彻底重塑前端开发的工作方式与技能要求。
Intuitive ML 分享构建云代理基础设施的教训:大多数框架假设桌面环境(单用户、单机、单进程),上云后需处理多租户、持久状态、API 密钥管理及网络延迟等全新挑战。文章总结了从桌面迁移到云端的差异点与最佳实践,为开发企业级代理系统提供了实用参考。
开发者 sydneyrunkle 提供详细指南,讲解如何构建自定义 AI 代理护具(Harness)。核心步骤包括:连接正确的上下文、数据与环境;从模型调用工具到完整代理系统的搭建。文章强调定制化是构建实用代理的关键,并给出了具体代码示例与架构建议。