工具地址:https://doubao-extractor-baosound.streamlit.app/

这个工具的核心功能很简单:输入一个豆包分享链接,就能自动提取出AI回答中引用的所有资料来源(标题、网站、URL、发布时间),并可以通过DeepSeek API对回答中的品牌进行深度分析,识别出真正的核心品牌。
选择了Streamlit作为前端框架,Playwright作为爬虫工具,DeepSeek API作为品牌分析引擎。这个组合确保了良好的用户体验、稳定的数据获取和专业的分析能力。
1. 反爬机制
第一次用requests请求时,前10次都能成功,之后就返回空结果。后来发现是豆包的服务器有反爬策略,会识别机器行为。最终改用Playwright无头浏览器,模拟真实用户行为(随机延迟、滚动),彻底解决了这个问题。
2. 询问词提取
一开始怎么也提取不到用户的问题,后来发现在浏览器开发者工具里看到的问题文本,在原始HTML中是以特定格式存在的。最终通过Playwright获取渲染后的HTML,从带有特定标记的div中精准提取。
3. 品牌分析误判
AI经常会把引用资料中提到的其他品牌也当成分析对象,比如分析黄油品牌时会把“费列罗”也列出来。解决方案是在Prompt中加入强硬指令:只分析表格中的品牌,排除所有非主体的提及。
4. 云端部署
最痛苦的是部署到Streamlit Cloud。Playwright需要系统级依赖,必须准备一个专门的packages.txt文件。第一次部署失败时完全摸不着头脑,后来查阅大量资料才解决。
5. Git推送
频繁遇到443端口错误,原来是代理配置问题。最后改用SSH协议推送,一劳永逸地解决了网络问题。
爬虫类工具
Streamlit应用
品牌分析
部署经验
这个工具现在可以稳定运行,每天处理几十个链接也不会被封。它不仅能提取引用来源,还能帮助用户快速分析AI回答中的品牌信息,大大提升了工作效率。
整个项目从想法到落地,经历了无数次调试和失败,但每一次坑都让我对技术的理解更深一层。如果你也在做类似的项目,希望这些经验能帮你少走一些弯路。