网站建设需要什么东西响应式做的好的网站有哪些
分类目录:《自然语言处理从入门到应用》总目录
合并语言模型和我们自己的文本数据是区分它们的一种强大方式,这样做的第一步是将数据加载到“文档”中,文档加载器的作用就是使这个过程变得简单。
LangChain提供了三种文档加载器:
- 转换加载器
 - 公共数据集或服务加载器
 - 专有数据集或服务加载器
 
转换加载器
这些转换加载器将数据从特定格式转换为文档格式,例如有用于CSV和SQL的转换器。大多数情况下,这些加载器从文件中输入数据,有时也可以从URL中输入数据。许多这些转换器的主要驱动程序是Unstructured模块。该包可以将许多类型的文件(文本、PowerPoint、图像、HTML、PDF 等)转换为文本数据。
文档加载器提供的文件类型或数据类型包括:
- Airtable
 - OpenAIWhisperParser
 - CoNLL-U
 - Copy Paste
 - CSV
 - EPUB
 - EverNote
 - Microsoft Excel
 - Facebook Chat
 - File Directory
 - HTML
 - Images
 - Jupyter Notebook
 - JSON
 - Markdown
 - Microsoft PowerPoint
 - Microsoft Word
 - Open Document Format (ODT)
 - Pandas DataFrame
 - Sitemap
 - Subtitle
 - Telegram
 - TOML
 - Unstructured File
 - URL
 - Selenium URL Loader
 - Playwright URL Loader
 - WebBaseLoader
 - Weather
 - WhatsApp Chat
 
公共数据集或服务加载器
这些数据集和来源是为公共领域创建的,我们使用查询来搜索并下载所需的文档。。对于这些数据集和服务,我们不需要任何访问权限。下面是一些公共数据集或服务加载器的示例:
- Arxiv
 - AZLyrics
 - BiliBili
 - College Confidential
 - Gutenberg
 - Hacker News
 - HuggingFace数据集
 - iFixit
 - IMSDb
 - MediaWikiDump
 - Wikipedia
 - YouTube 转录
 
专有数据集或服务加载器
这些数据集和服务不属于公共领域。这些加载器主要用于转换特定格式的应用程序或云服务的数据,e。我们需要访问令牌和其他参数才能访问这些数据集和服务。下面是一些专有数据集或服务加载器的示例:
- Airbyte JSON
 - Apify Dataset
 - AWS S3 Directory
 - AWS S3 File
 - Azure Blob Storage Container
 - Azure Blob Storage File
 - Blackboard
 - Blockchain
 - ChatGPT Data
 - Confluence
 - Diffbot
 - Docugami
 - DuckDB
 - Fauna
 - Figma
 - GitBook
 - Git
 - Google BigQuery
 - Google Cloud Storage Directory
 - Google Cloud Storage File
 - Google Drive
 - Image Captions
 - Iugu
 - Joplin
 - Microsoft OneDrive
 - Modern Treasury
 - Notion DB 2/2
 - Notion DB 1/2
 - Obsidian
 - Psychic
 - PySpark DataFrame Loader
 - ReadTheDocs Documentation
 - Roam
 - Slack
 - Snowflake
 - Spreedly
 - Stripe
 - 2Markdown
 
参考文献:
 [1] LangChain官方网站:https://www.langchain.com/
 [2] LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
 [3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/
