Audio and text versions of this post can be found below in the following languages:
English
Français
Español
官话
عربي
हिन्दी
Links to more information about things mentioned in the episode:
English
Audio:
Transcript:
Welcome to another episode of the Bible translation technology podcast, called Tech and Testament. This podcast is presented by the Every Tribe Every Nation Innovation Lab and is curated by me, Daniel Whitenack, founder and CEO at Prediction Guard. Each episode of Tech and Testament will provide updates on advancements in artificial intelligence and language technology. We will also reflect on how this technology might impact or intersect with Bible translation.
As a reminder you can find translations of the show into French, Spanish, Hindi, Mandarin, and Arabic on our substack page. And let’s practice some community checking. Please let us know if you find errors in these translations, so we can improve the translation quality.
To start things out this week, I wanted to highlight a big update from OpenAI. Their ChatGPT system now has voice and image capabilities. This is super cool for those of us that use ChatGPT everyday to help write emails, extract or find information, or write code among many other uses. You can now use your voice to record chat messages, and ChatGPT will respond to you with a synthesized voice.
Under the hood of these new voice interactions is a new voice synthesis model, which seems to be proprietary, and OpenAI’s Whisper transcription model. The Whisper model is open and permissively licensed, and it supports multiple gateway languages and even unique translanguaging scenarios, like Hinglish. Our company uses this Whisper model in production already and it is quite powerful.
Imagine utilizing such a system to automatically transcribe translator questions, search queries, or Bible engagement dialogue! In fact, the Innovation Lab is already catalyzing these kinds of projects. The assistant.bible project is attempting to provide a question answering and voice interface to the Tyndale Study Notes. Such an interface would allow oral Bible translators and text translators to quickly query for the right information at the right time. Imagine you are translating portions of the old estament and you encounter the word “ephod.” The retrieval of information about that word could be as simple as speaking your question, in one of several gateway languages!
The new ChatGPT functionality also includes the ability to chat with and about images that you might upload. These files might be photographs, screenshots, or documents that contain both text and images. So go login to ChatGPT and try these things out. The new features are pretty amazing!
Continuing the theme of integrating your own data with the latest AI models, I wanted to specifically highlight something that seems to be confusing for many people these days of generative AI. You might have heard about companies or organizations “fine-tuning” a model with their own data. You might have even heard about work within the Bible translation movement to “fine-tune” machine translation or quality estimation models for new languages. Then there is the functionality that we just mentioned about ChatGPT working with data that you upload or assistant.bible answering questions out of data you specify (like the Tyndale Study Notes).
You might naturally lump all of these scenarios together, because they all integrate external data with state-of-the-art AI models, but there are some significant differences that are very practical.
Let’s start at the beginning with a good understanding of what an AI model is at its core. What are we referring to when we say “model?” Well, fundamentally an AI model is computer code that accomplishes a data transformation. This data transformation might take text in one language and convert it into another language (as in the case of machine translation). It might take text and convert it into spoken language or audio (as in the case of speech synthesis). It might take in an instruction or conversation and try to come up with a response. In fact, the data transformation implemented in computer code might allow us to perform many different functions.
However, the data transformations that we refer to as AI “models” have a special property. They transform data using computer code with a number of settings or configurations that are generally called parameters. Some AI models might have millions, billions, or even hundreds of billions of these parameters. The parameters are configured through an iterative process called “training.” During training, the parameters are automatically adjusted, some example inputs are transformed, the outputs are judged to be good or bad, and then the parameters are adjusted further. This goes on until you end up with computer code that can be configured, via the parameters, to perform some quite sophisticated data transformations (like taking in text in one language and outputting text in another language).
When Bible translation organizations are using existing human translated data for a given language pair to “fine-tune” a model to translate that language pair, they are executing this iterative process. That is, they are actually uniquely configuring the AI model for the language pair that they have in mind. The advantage of this is that it might make the AI model particularly well suited for the given scenario. However, there are some significant challenges. Such a process generally requires expensive, specialized computers with components like Graphical Processing Units (or GPUs), experts that can configure this infrastructure and the corresponding code, and some existing data representative of the scenario you have in mind. These constraints can be a challenge for non-profit Bible Translation organizations and for lower resourced languages without existing data.
Now, let’s contrast that with what is happening when we integrate something like the Tyndale Study Notes with a state-of-the-art generative AI model for answering translator questions. First off, there is no expensive updating of the model that is required. The latest wave of AI applications that are sweeping industry utilize a procedure called Retrieval Augmented Generation, or RAG, rather than “fine-tuning.” In this procedure the AI model stays the same as when it was trained by Google, OpenAI, or whatever other organization has the infrastructure and resources to create such a model. As a consumer of that model, we can use it off the shelf with our own data via retrieval.
This is how it works: (1) a request or user message is received (like a request to answer the question “what is an ephod?”); (2) we match that user message to relevant external data in a repository of data (like an article about the ephod in the Bible Aquifer); (3) we insert a portion of that relevant data into our input to the AI model (like asking the AI model to answer the user question based on the article that we retrieved); and (4) we get back an output that takes our data into account. Even though we didn’t re-train the model on our data!
The retrieval based RAG workflow is transforming how people work with AI models, because it means that almost anyone can integrate their own data into AI models for improved output. In fact, it is a way for you to unlock hidden value in all of the data you’ve been accumulating over the years. You could integrate relevant examples of how to apply Paratext formatting into a request to reformat user input, and you could do this without needing to train a specialized Bible reformatter model. You could feed in organization specific translation policies or training documents to an assistant that helps answer translation team questions. You could search Scripture engagement articles for a devotion related to a passage and generate a related prayer that is grounded in the theology of the article. And there are so many other possibilities!
Now, for machine translation specifically, fine-tuned and unique models are still better than off-the-shelf models augmented with external data. However, one could imagine a time when an off-the-shelf model could be supplied with knowledge about how to construct translation rules or how to adapt one language to another via retrieval. These methods implemented as a co-pilot paired with a human translator pilot promise to provide help to translators now and significant acceleration toward the All Access Goals over time.
If you want to find out more about the new ChatGPT features or RAG workflows, we will include some links in the show notes. That’s it for now, look for another episode of Tech and Testament soon!
Español
Audio:
Transcripción
Bienvenido a otro episodio del podcast sobre tecnología de traducción de la Biblia, llamado Tecnología y testamento. Este podcast fue presentado por el laboratorio de innovación Every Tribe Every Nation y comisariado por mí, Daniel Whitenack, fundador y director ejecutivo de Prediction Guard. Cada episodio de Tech and Testament ofrecerá actualizaciones sobre los avances en inteligencia artificial y tecnología de traducción. También reflexionaremos sobre cómo esta tecnología podría afectar o entrecruzarse con la traducción de la Biblia.
Como recordatorio, puedes encontrar traducciones de la serie al francés, español, hindi, mandarín y árabe en nuestra página de substack. Y practiquemos un poco de verificación comunitaria. Háganos saber si encuentra errores en estas traducciones para que podamos mejorar la calidad de la traducción.
Para empezar esta semana, quería destacar una gran actualización de OpenAI. Su sistema ChatGPT ahora tiene capacidades de voz e imagen. Esto es genial para aquellos de nosotros que usamos ChatGPT todos los días para ayudar a escribir correos electrónicos, extraer o encontrar información, o escribir código, entre muchos otros usos. Ahora puedes usar tu voz para grabar mensajes de chat, y ChatGPT te responderá con una voz sintetizada.
Bajo el capó de estas nuevas interacciones de voz hay un nuevo modelo de síntesis de voz, que parece estar patentado, y el modelo de transcripción Whisper de OpenAI. El modelo Whisper es abierto y tiene licencias permisivas, y es compatible con varios idiomas de entrada e incluso con escenarios translingüísticos únicos, como el hinglish. Nuestra empresa ya utiliza este modelo Whisper en producción y es bastante potente.
¡Imagínese utilizar un sistema de este tipo para transcribir automáticamente las preguntas de los traductores, las consultas de búsqueda o los diálogos relacionados con la Biblia! De hecho, el Laboratorio de Innovación ya está catalizando este tipo de proyectos. El proyecto assistant.bible intenta proporcionar una interfaz de voz y respuesta a preguntas para las notas de estudio de Tyndale. Esta interfaz permitiría a los traductores orales de la Biblia y a los traductores de textos consultar rápidamente la información correcta en el momento adecuado. Imagine que está traduciendo partes del antiguo testamento y encuentra la palabra «efod». Recuperar información sobre esa palabra puede ser tan simple como pronunciar la pregunta, ¡en uno de los varios idiomas de entrada!
La nueva funcionalidad de ChatGPT también incluye la posibilidad de chatear con y sobre las imágenes que puedas subir. Estos archivos pueden ser fotografías, capturas de pantalla o documentos que contienen texto e imágenes. Así que inicia sesión en ChatGPT y prueba estas cosas. ¡Las nuevas funciones son bastante asombrosas!
Continuando con el tema de la integración de sus propios datos con los últimos modelos de IA, quería destacar específicamente algo que parece resultar confuso para muchas personas hoy en día, con la IA generativa. Es posible que hayas oído hablar de empresas u organizaciones que están «ajustando» un modelo con sus propios datos. Es posible que incluso hayas oído hablar del movimiento de traducción de la Biblia para «afinar» la traducción automática o los modelos de estimación de la calidad para nuevos idiomas. Luego está la funcionalidad que acabamos de mencionar, que consiste en que ChatGPT trabaja con los datos que tú subes o que assistant.bible responde a las preguntas a partir de los datos que tú especificas (como las notas de estudio de Tyndale).
Es natural agrupar todos estos escenarios, ya que todos integran datos externos con modelos de IA de última generación, pero hay algunas diferencias importantes que resultan muy prácticas.
Empecemos por el principio con una buena comprensión de lo que es un modelo de IA en su esencia. ¿A qué nos referimos cuando decimos «modelo»? Bueno, fundamentalmente, un modelo de IA es un código de computadora que logra una transformación de datos. Esta transformación de datos puede tomar texto de un idioma y convertirlo a otro idioma (como en el caso de la traducción automática). Puede tomar texto y convertirlo en lenguaje hablado o audio (como en el caso de la síntesis de voz). Puede incluir una instrucción o una conversación e intentar dar con una respuesta. De hecho, la transformación de datos implementada en el código informático podría permitirnos realizar muchas funciones diferentes.
Sin embargo, las transformaciones de datos que denominamos «modelos» de IA tienen una propiedad especial. Transforman los datos mediante un código informático con una serie de ajustes o configuraciones que generalmente se denominan parámetros. Algunos modelos de IA pueden tener millones, miles de millones o incluso cientos de miles de millones de estos parámetros. Los parámetros se configuran mediante un proceso iterativo denominado «entrenamiento». Durante el entrenamiento, los parámetros se ajustan automáticamente, algunas entradas de ejemplo se transforman, las salidas se consideran buenas o malas y, a continuación, los parámetros se ajustan aún más. Esto continúa hasta que se obtiene un código de computadora que se puede configurar, mediante los parámetros, para realizar algunas transformaciones de datos bastante sofisticadas (como tomar texto en un idioma y generar texto en otro idioma).
Cuando las organizaciones de traducción de la Biblia utilizan datos traducidos por humanos existentes para una combinación de idiomas determinada para «ajustar» un modelo que traduzca esa combinación de idiomas, están ejecutando este proceso iterativo. Es decir, en realidad están configurando el modelo de IA de forma única para la combinación de idiomas que tienen en mente. La ventaja de esto es que podría hacer que el modelo de IA sea particularmente adecuado para el escenario dado. Sin embargo, existen algunos desafíos importantes. Un proceso de este tipo suele requerir ordenadores especializados y costosos con componentes como unidades de procesamiento gráfico (o GPU), expertos que puedan configurar esta infraestructura y el código correspondiente, y algunos datos existentes representativos del escenario que se está planteando. Estas limitaciones pueden ser un desafío para las organizaciones de traducción de la Biblia sin fines de lucro y para los idiomas con menos recursos y sin datos existentes.
Ahora, contrastemos eso con lo que sucede cuando integramos algo como las notas de estudio de Tyndale con un modelo de IA generativa de última generación para responder a las preguntas de los traductores. En primer lugar, no es necesaria una costosa actualización del modelo. La última oleada de aplicaciones de IA que se está extendiendo por todo el sector utiliza un procedimiento denominado generación aumentada de recuperación, o RAG, en lugar de «afinar». En este procedimiento, el modelo de IA sigue siendo el mismo que cuando lo entrenaron Google, OpenAI o cualquier otra organización que tenga la infraestructura y los recursos para crear dicho modelo. Como consumidores de ese modelo, podemos usarlo listo para usar con nuestros propios datos mediante la recuperación.
Así es como funciona: (1) se recibe una solicitud o un mensaje de usuario (como una solicitud para responder a la pregunta «¿qué es un efod?») ; (2) comparamos ese mensaje del usuario con datos externos relevantes en un repositorio de datos (como un artículo sobre el efod en el Acuífero de la Biblia); (3) insertamos una parte de esos datos relevantes en nuestra entrada al modelo de IA (como pedirle al modelo de IA que responda a la pregunta del usuario en función del artículo que hemos recuperado); y (4) obtenemos un resultado que tiene en cuenta nuestros datos. ¡A pesar de que no volvimos a entrenar el modelo con nuestros datos!
El flujo de trabajo RAG basado en la recuperación está transformando la forma en que las personas trabajan con los modelos de IA, ya que significa que casi cualquier persona puede integrar sus propios datos en los modelos de IA para mejorar los resultados. De hecho, es una forma de descubrir el valor oculto de todos los datos que ha ido acumulando a lo largo de los años. Podrías integrar ejemplos relevantes de cómo aplicar el formato de paratexto en una solicitud para reformatear la entrada de un usuario, y podrías hacerlo sin necesidad de entrenar un modelo especializado de reformateador de la Biblia. Puedes enviar las políticas de traducción específicas de la organización o los documentos de formación a un asistente que ayude a responder a las preguntas del equipo de traducción. Puedes buscar en los artículos relacionados con las Escrituras una devoción relacionada con un pasaje y generar una oración relacionada que se base en la teología del artículo. ¡Y hay tantas otras posibilidades!
Ahora, en lo que respecta específicamente a la traducción automática, los modelos únicos y ajustados siguen siendo mejores que los modelos estándar aumentados con datos externos. Sin embargo, cabe imaginar un momento en el que un modelo estándar pudiera incluir conocimientos sobre cómo elaborar reglas de traducción o cómo adaptar un idioma a otro mediante la recuperación. Estos métodos, implementados como copiloto y en combinación con un programa piloto para traductores humanos, prometen ayudar a los traductores en la actualidad y, con el tiempo, acelerar considerablemente la consecución de los objetivos de acceso total.
Si quieres obtener más información sobre las nuevas funciones de ChatGPT o los flujos de trabajo de RAG, incluiremos algunos enlaces en las notas del programa. Eso es todo por ahora, ¡esperad pronto otro episodio de Tech and Testament!
Français
l'audio
Transcription
Bienvenue dans un autre épisode du podcast sur les technologies de traduction de la Bible, intitulé Tech and Testament. Ce podcast est présenté par le laboratoire d'innovation Every Tribe Every Nation et est organisé par moi, Daniel Whitenack, fondateur et PDG de Prediction Guard. Chaque épisode de Tech and Testament fournira des mises à jour sur les progrès de l'intelligence artificielle et des technologies de traduction. Nous réfléchirons également à l'impact ou au croisement de cette technologie avec la traduction de la Bible.
Pour rappel, vous pouvez trouver des traductions de l'émission en français, espagnol, hindi, mandarin et arabe sur notre page Substack. Et pratiquons un peu de community checking. Merci de nous faire savoir si vous trouvez des erreurs dans ces traductions, afin que nous puissions améliorer la qualité de la traduction.
Pour commencer cette semaine, je voulais souligner une importante mise à jour d'OpenAI. Leur système ChatGPT possède désormais des fonctionnalités de voix et d'image. C'est super cool pour ceux d'entre nous qui utilisent ChatGPT tous les jours pour écrire des e-mails, extraire ou trouver des informations, ou écrire du code, entre autres utilisations. Vous pouvez désormais utiliser votre voix pour enregistrer des messages de chat, et ChatGPT vous répondra avec une voix synthétisée.
Sous le capot de ces nouvelles interactions vocales se trouvent un nouveau modèle de synthèse vocale, qui semble être propriétaire, et le modèle de transcription Whisper d'OpenAI. Le modèle Whisper est ouvert et autorisé sous licence, et il prend en charge plusieurs langues de passerelle et même des scénarios de translangue uniques, comme le hinglish. Notre entreprise utilise déjà ce modèle Whisper en production et il est assez puissant.
Imaginez utiliser un tel système pour transcrire automatiquement les questions des traducteurs, les requêtes de recherche ou les dialogues sur l'engagement biblique ! En fait, le laboratoire d'innovation catalyse déjà ce type de projets. Le projet assistant.bible tente de fournir une réponse aux questions et une interface vocale aux notes d'étude de Tyndale. Une telle interface permettrait aux traducteurs de la Bible orale et aux traducteurs de texte de rechercher rapidement les bonnes informations au bon moment. Imaginez que vous traduisez des parties de l'Ancien Testament et que vous rencontriez le mot « éphod ». La recherche d'informations sur ce mot peut être aussi simple que de poser votre question, dans l'une des nombreuses langues de passerelle !
La nouvelle fonctionnalité ChatGPT inclut également la possibilité de discuter avec et à propos des images que vous pourriez télécharger. Ces fichiers peuvent être des photographies, des captures d'écran ou des documents contenant à la fois du texte et des images. Alors connectez-vous à ChatGPT et essayez ces choses. Les nouvelles fonctionnalités sont plutôt étonnantes !
Poursuivant le thème de l'intégration de vos propres données aux derniers modèles d'IA, je voulais spécifiquement souligner un élément qui semble source de confusion pour de nombreuses personnes à l'heure actuelle en matière d'IA générative. Vous avez peut-être entendu parler d'entreprises ou d'organisations qui « peaufinent » un modèle avec leurs propres données. Vous avez peut-être même entendu parler du travail effectué au sein du mouvement de traduction de la Bible pour « peaufiner » la traduction automatique ou les modèles d'estimation de la qualité pour les nouvelles langues. Ensuite, il y a la fonctionnalité que nous venons de mentionner concernant le fait que ChatGPT fonctionne avec des données que vous téléchargez ou que assistant.bible répond à des questions à partir des données que vous spécifiez (comme les notes d'étude de Tyndale).
Vous pouvez naturellement regrouper tous ces scénarios, car ils intègrent tous des données externes à des modèles d'IA de pointe, mais il existe des différences importantes qui sont très pratiques.
Commençons par le début avec une bonne compréhension de la base d'un modèle d'IA. À quoi faisons-nous référence lorsque nous parlons de « modèle » ? Eh bien, fondamentalement, un modèle d'IA est un code informatique qui réalise une transformation de données. Cette transformation de données peut prendre du texte dans une langue et le convertir dans une autre langue (comme dans le cas de la traduction automatique). Il peut prendre du texte et le convertir en langage parlé ou en audio (comme dans le cas de la synthèse vocale). Il peut prendre une instruction ou une conversation et essayer de trouver une réponse. En fait, la transformation des données mise en œuvre dans le code informatique peut nous permettre d'exécuter de nombreuses fonctions différentes.
Cependant, les transformations de données que nous appelons « modèles » d'IA ont une propriété particulière. Ils transforment les données à l'aide d'un code informatique comportant un certain nombre de paramètres ou de configurations généralement appelés paramètres. Certains modèles d'IA peuvent comporter des millions, des milliards, voire des centaines de milliards de ces paramètres. Les paramètres sont configurés par le biais d'un processus itératif appelé « entraînement ». Pendant l'entraînement, les paramètres sont automatiquement ajustés, certains exemples d'entrées sont transformés, les sorties sont jugées bonnes ou mauvaises, puis les paramètres sont encore ajustés. Cela se poursuit jusqu'à ce que vous obteniez un code informatique qui peut être configuré, via les paramètres, pour effectuer des transformations de données assez sophistiquées (comme saisir du texte dans une langue et le sortir du texte dans une autre langue).
Lorsque les organisations de traduction de la Bible utilisent des données traduites par des humains existantes pour une paire de langues donnée afin de « peaufiner » un modèle afin de traduire cette paire de langues, elles exécutent ce processus itératif. C'est-à-dire qu'ils configurent en fait de manière unique le modèle d'IA pour la paire de langues qu'ils ont en tête. L'avantage est que cela pourrait rendre le modèle d'IA particulièrement bien adapté au scénario donné. Cependant, certains défis importants se posent. Un tel processus nécessite généralement des ordinateurs spécialisés coûteux dotés de composants tels que des unités de traitement graphique (ou GPU), des experts capables de configurer cette infrastructure et le code correspondant, ainsi que des données existantes représentatives du scénario que vous avez en tête. Ces contraintes peuvent constituer un défi pour les organisations de traduction de la Bible à but non lucratif et pour les langues à faibles ressources qui ne disposent pas de données existantes.
Comparons maintenant cela à ce qui se passe lorsque nous intégrons un outil tel que les notes d'étude de Tyndale à un modèle d'IA générative de pointe pour répondre aux questions des traducteurs. Tout d'abord, aucune mise à jour coûteuse du modèle n'est requise. La dernière vague d'applications d'IA qui envahit l'industrie utilise une procédure appelée Retrieval Augmented Generation, ou RAG, plutôt que de « peaufinage ». Dans cette procédure, le modèle d'IA reste le même que lorsqu'il a été formé par Google, OpenAI ou toute autre organisation disposant de l'infrastructure et des ressources nécessaires pour créer un tel modèle. En tant que consommateur de ce modèle, nous pouvons l'utiliser sur le marché avec nos propres données par extraction.
Voici comment cela fonctionne : (1) une demande ou un message utilisateur est reçu (comme une demande de réponse à la question « Qu'est-ce qu'un ephod ? ») ; (2) nous associons ce message utilisateur aux données externes pertinentes d'un référentiel de données (comme un article sur l'éphod dans l'aquifère biblique) ; (3) nous insérons une partie de ces données pertinentes dans notre entrée dans le modèle d'IA (par exemple en demandant au modèle d'IA de répondre à la question de l'utilisateur sur la base de l'article que nous avons récupéré) ; et (4) nous obtenons un résultat qui prend en compte nos données. Même si nous n'avons pas réentraîné le modèle en fonction de nos données !
Le flux de travail RAG basé sur la récupération transforme la façon dont les gens travaillent avec les modèles d'IA, car il signifie que presque tout le monde peut intégrer ses propres données dans des modèles d'IA pour améliorer les résultats. En fait, c'est un moyen pour vous de découvrir la valeur cachée de toutes les données que vous avez accumulées au fil des ans. Vous pouvez intégrer des exemples pertinents de la façon d'appliquer le formatage Paratext dans une demande de reformater une entrée utilisateur, et vous pouvez le faire sans avoir besoin de former un modèle spécialisé de reformatage de la Bible. Vous pouvez transmettre des politiques de traduction ou des documents de formation spécifiques à l'organisation à un assistant qui aidera à répondre aux questions de l'équipe de traduction. Vous pouvez rechercher une dévotion liée à un passage dans des articles consacrés aux Écritures et générer une prière connexe fondée sur la théologie de l'article. Et il y a tellement d'autres possibilités !
Aujourd'hui, pour la traduction automatique en particulier, les modèles uniques et affinés sont toujours meilleurs que les modèles prêts à l'emploi augmentés de données externes. Cependant, on pourrait imaginer un moment où un modèle standard pourrait être fourni avec des connaissances sur la façon de construire des règles de traduction ou sur la manière d'adapter une langue à une autre par le biais de la récupération. Ces méthodes mises en œuvre en tant que copilote associées à un projet pilote de traduction humaine promettent d'aider les traducteurs dès maintenant et d'accélérer considérablement la réalisation des objectifs d'accès universel au fil du temps.
Si vous souhaitez en savoir plus sur les nouvelles fonctionnalités de ChatGPT ou les flux de travail RAG, nous inclurons quelques liens dans les notes de l'émission. C'est tout pour le moment, attendez-vous à un autre épisode de Tech and Testament bientôt!
官话
声音的
成绩单
欢迎收看圣经翻译技术播客的另一集,名为《科技与遗嘱》。这个播客由 Every Tribe Every Nation 创新实验室主持,由我、Prediction Guard 创始人兼首席执行官丹尼尔·惠特纳克策划。《科技与遗嘱》的每一集都将提供有关人工智能和翻译技术进步的最新信息。我们还将反思这项技术可能如何影响圣经翻译或与圣经翻译相交。
提醒一下,你可以在我们的子堆栈页面上找到该节目的法语、西班牙语、印地语、普通话和阿拉伯语译本。让我们练习一些社区检查。如果您在这些翻译中发现错误,请告诉我们,以便我们提高翻译质量。
本周首先,我想重点介绍一下OpenAI的重大更新。他们的 ChatGPT 系统现在具有语音和图像功能。对于我们这些每天使用 ChatGPT 来帮助撰写电子邮件、提取或查找信息或编写代码以及许多其他用途的人来说,这真是太酷了。现在,您可以使用语音录制聊天消息,ChatGPT 将使用合成语音回复您。
这些新的语音交互的幕后是一个新的语音合成模型(似乎是专有的)和OpenAI的Whisper转录模型。Whisper 模型是开放的,并获得许可许可,它支持多种网关语言,甚至是独特的跨语言场景,例如 Hinglish。我们公司已经在生产中使用了这种Whisper模型,它非常强大。
想象一下,利用这样的系统自动转录译员问题、搜索查询或圣经参与对话!实际上,创新实验室已经在推动这类项目。assistant.bible 项目正试图为 Tyndale Study Notes 提供问题解答和语音界面。这样的界面将使口头圣经翻译者和文本翻译人员能够在正确的时间快速查询正确的信息。想象一下,你正在翻译旧约圣经的部分内容,却遇到 “以弗得” 这个词。检索有关该单词的信息可能就像用几种网关语言中的一种说出你的问题一样简单!
新的 ChatGPT 功能还包括与您可能上传的图像进行聊天和讨论的功能。这些文件可能是照片、屏幕截图或同时包含文本和图像的文档。因此,请登录 ChatGPT 并尝试这些东西。新功能真是太神奇了!
延续将你自己的数据与最新的人工智能模型整合为一的主题,我想特别强调一些当今生成人工智能领域似乎让许多人感到困惑的东西。你可能听说过公司或组织用自己的数据 “微调” 模型。你甚至可能听说过圣经翻译运动中为新语言进行 “微调” 机器翻译或质量估算模型的工作。然后是我们刚才提到的关于ChatGPT处理你上传的数据或assistant.bible用你指定的数据(比如Tyndale研究笔记)回答问题的功能。
你可以自然地将所有这些场景混为一谈,因为它们都将外部数据与最先进的人工智能模型集成在一起,但也有一些非常实用的显著差异。
让我们从一开始就深入了解人工智能模型的核心。当我们说 “模型” 时,我们指的是什么?好吧,从根本上讲,人工智能模型是完成数据转换的计算机代码。这种数据转换可能会采用一种语言的文本,然后将其转换为另一种语言(如机器翻译)。它可能会接收文本并将其转换为口语或音频(例如语音合成)。它可能会接受指示或对话,然后尝试做出回应。实际上,在计算机代码中实现的数据转换可能使我们能够执行许多不同的功能。
但是,我们称之为 AI “模型” 的数据转换具有特殊的属性。它们使用带有许多设置或配置(通常称为参数)的计算机代码来转换数据。某些 AI 模型可能有数百万、数十亿甚至数千亿个这样的参数。这些参数是通过名为 “训练” 的迭代过程配置的。在训练过程中,会自动调整参数,转换一些示例输入,判断输出是好是坏,然后进一步调整参数。这种情况一直持续到你最终得到计算机代码,这些代码可以通过参数进行配置,以执行一些非常复杂的数据转换(例如接收一种语言的文本然后用另一种语言输出文本)。
当圣经翻译组织使用现有的人工翻译数据来对给定语言对 “微调” 翻译该语言对的模型时,他们正在执行这个迭代过程。也就是说,他们实际上是在为他们想到的语言对独特地配置 AI 模型。这样做的好处是,它可能会使人工智能模型特别适合给定的场景。但是,也存在一些重大挑战。这样的过程通常需要昂贵的专业计算机,其中包含图形处理单元(或GPU)等组件、可以配置此基础架构和相应代码的专家,以及一些代表您所想场景的现有数据。对于非营利性圣经翻译组织和没有现有数据的资源较少的语言来说,这些限制可能是一个挑战。
现在,让我们将其与将Tyndale Study Notes之类的东西与最先进的生成式人工智能模型集成以回答翻译者问题时发生的情况进行对比。首先,不需要对模型进行昂贵的更新。席卷行业的最新一波人工智能应用程序使用的是一种名为 “检索增强生成”(RAG)的程序,而不是 “微调”。在此过程中,人工智能模型与由 Google、OpenAI 或其他任何具有创建此类模型的基础架构和资源的组织训练时相同。作为该模型的消费者,我们可以通过检索将其与自己的数据一起使用。
它的工作原理如下:(1) 收到请求或用户消息(比如请求回答 “什么是ephod?”); (2) 我们将该用户消息与数据存储库中的相关外部数据进行匹配(例如一篇关于圣经含水层中以弗得的文章);(3)我们将部分相关数据插入人工智能模型的输入中(例如要求人工智能模型根据我们检索到的文章回答用户问题);(4)我们得到的输出将我们的数据考虑在内。尽管我们没有根据数据重新训练模型!
基于检索的 RAG 工作流程正在改变人们使用 AI 模型的方式,因为这意味着几乎任何人都可以将自己的数据集成到 AI 模型中以改善输出。实际上,这是一种解锁多年来积累的所有数据中隐藏价值的方法。您可以整合相关示例,说明如何将 Paratext 格式应用到重新格式化用户输入的请求中,并且无需训练专门的圣经格式化程序模型即可完成此操作。您可以将组织特定的翻译政策或培训文档提供给帮助回答翻译团队问题的助手。你可以在圣经订婚文章中搜索与段落相关的奉献,然后生成以文章神学为基础的相关祈祷。还有很多其他可能性!
现在,特别是对于机器翻译,经过微调和的独特模型仍然比使用外部数据增强的现成模型要好。但是,人们可以想象,一个现成的模型可以获得有关如何构建翻译规则或如何通过检索使一种语言适应另一种语言的知识。这些方法以副驾驶的形式实施,再加上人工翻译试点,有望立即为翻译人员提供帮助,并随着时间的推移大大加快实现All Access目标的实现。
如果您想了解有关 ChatGPT 新功能或 RAG 工作流程的更多信息,我们将在演出说明中包含一些链接。现在仅此而已,快来看看另一集《科技与遗嘱》!
عربي
صوتي
نص
हिन्दी
ऑडियो
प्रतिलिपि
बाइबल अनुवाद प्रौद्योगिकी पॉडकास्ट के एक और एपिसोड में आपका स्वागत है, जिसे टेक और टेस्टामेंट कहा जाता है। यह पॉडकास्ट एवरी ट्राइब एवरी नेशन इनोवेशन लैब द्वारा प्रस्तुत किया गया है और इसे मेरे द्वारा क्यूरेट किया गया है, जो प्रेडिक्शन गार्ड के संस्थापक और सीईओ डैनियल व्हाइटनैक हैं। टेक एंड टेस्टामेंट का प्रत्येक एपिसोड आर्टिफिशियल इंटेलिजेंस और अनुवाद तकनीक में हुई प्रगति पर अपडेट प्रदान करेगा। हम इस बात पर भी विचार करेंगे कि यह तकनीक बाइबल के अनुवाद को कैसे प्रभावित कर सकती है या उसे कैसे प्रभावित कर सकती है।
एक अनुस्मारक के रूप में आप हमारे सबस्टैक पेज पर फ्रेंच, स्पैनिश, हिंदी, मंदारिन और अरबी में शो के अनुवाद पा सकते हैं। और चलिए कुछ सामुदायिक जाँच का अभ्यास करते हैं। अगर आपको इन अनुवादों में त्रुटियां मिलती हैं, तो कृपया हमें बताएं, ताकि हम अनुवाद की गुणवत्ता में सुधार कर सकें।
इस सप्ताह चीजों को शुरू करने के लिए, मैं OpenAI के एक बड़े अपडेट को उजागर करना चाहता था। उनके ChatGPT सिस्टम में अब वॉइस और इमेज क्षमताएं हैं। यह हममें से उन लोगों के लिए बहुत अच्छा है जो ईमेल लिखने, जानकारी निकालने या खोजने, या कई अन्य उपयोगों के बीच कोड लिखने में मदद करने के लिए हर रोज़ ChatGPT का उपयोग करते हैं। अब आप चैट संदेशों को रिकॉर्ड करने के लिए अपनी आवाज़ का उपयोग कर सकते हैं, और ChatGPT एक संश्लेषित आवाज़ के साथ आपको जवाब देगा।
इन नए वॉइस इंटरैक्शन के हुड के नीचे एक नया वॉइस सिंथेसिस मॉडल है, जो मालिकाना लगता है, और OpenAI का व्हिस्पर ट्रांसक्रिप्शन मॉडल है। व्हिस्पर मॉडल खुला और अनुमत रूप से लाइसेंस प्राप्त है, और यह कई गेटवे भाषाओं और यहां तक कि हिंग्लिश जैसे अद्वितीय अनुवाद परिदृश्यों का समर्थन करता है। हमारी कंपनी पहले से ही उत्पादन में इस व्हिस्पर मॉडल का उपयोग करती है और यह काफी शक्तिशाली है।
अनुवादक प्रश्नों, खोज प्रश्नों, या बाइबल सहभागिता संवाद को स्वचालित रूप से ट्रांसक्रिप्ट करने के लिए ऐसी प्रणाली का उपयोग करने की कल्पना करें! वास्तव में, इनोवेशन लैब पहले से ही इस तरह की परियोजनाओं को उत्प्रेरित कर रही है। सहायक.bible प्रोजेक्ट टिंडेल स्टडी नोट्स को प्रश्न उत्तर देने और वॉइस इंटरफ़ेस प्रदान करने का प्रयास कर रहा है। इस तरह के इंटरफेस से बाइबल के मौखिक अनुवादक और पाठ अनुवादक सही समय पर सही जानकारी के लिए तुरंत पूछताछ कर सकेंगे। कल्पना कीजिए कि आप पुराने नियम के कुछ हिस्सों का अनुवाद कर रहे हैं और आपका सामना “एफोड” शब्द से होता है। उस शब्द के बारे में जानकारी की पुनर्प्राप्ति कई गेटवे भाषाओं में से एक में, आपके प्रश्न को बोलने जितना आसान हो सकता है!
नई ChatGPT कार्यक्षमता में उन छवियों के साथ और उनके बारे में चैट करने की क्षमता भी शामिल है जिन्हें आप अपलोड कर सकते हैं। ये फ़ाइलें फ़ोटोग्राफ़, स्क्रीनशॉट या दस्तावेज़ हो सकती हैं जिनमें टेक्स्ट और इमेज दोनों शामिल हैं। इसलिए ChatGPT में लॉगिन करें और इन चीज़ों को आज़माएँ। नई सुविधाएं बहुत अद्भुत हैं!
अपने स्वयं के डेटा को नवीनतम AI मॉडल के साथ एकीकृत करने की थीम को जारी रखते हुए, मैं विशेष रूप से कुछ ऐसी चीज़ों को उजागर करना चाहता था जो जनरेटिव AI के इन दिनों कई लोगों के लिए भ्रमित करने वाली लगती है। आपने कंपनियों या संगठनों के अपने डेटा के साथ एक मॉडल को “फाइन-ट्यून” करने के बारे में सुना होगा। आपने नई भाषाओं के लिए मशीनी अनुवाद या गुणवत्ता आकलन मॉडल को “फाइन-ट्यून” करने के लिए बाइबल अनुवाद आंदोलन में काम करने के बारे में भी सुना होगा। फिर वह कार्यक्षमता है जिसका हमने अभी हाल ही में ChatGPT के बारे में उल्लेख किया है जो आपके द्वारा अपलोड किए गए डेटा के साथ काम कर रहा है या आपकी सहायता करता है। बाइबल आपके द्वारा निर्दिष्ट डेटा से बाहर के सवालों के जवाब दे रही है (जैसे टाइन्डेल स्टडी नोट्स)।
आप स्वाभाविक रूप से इन सभी परिदृश्यों को एक साथ जोड़ सकते हैं, क्योंकि ये सभी बाहरी डेटा को अत्याधुनिक AI मॉडल के साथ एकीकृत करते हैं, लेकिन कुछ महत्वपूर्ण अंतर हैं जो बहुत व्यावहारिक हैं।
आइए शुरुआत में इस बात की अच्छी समझ के साथ शुरू करें कि AI मॉडल इसके मूल में क्या है। जब हम “मॉडल” कहते हैं तो हम किस बात का जिक्र कर रहे हैं? खैर, मूल रूप से AI मॉडल कंप्यूटर कोड होता है जो डेटा रूपांतरण को पूरा करता है। यह डेटा रूपांतरण एक भाषा में पाठ ले सकता है और इसे दूसरी भाषा में परिवर्तित कर सकता है (जैसा कि मशीन अनुवाद के मामले में होता है)। यह पाठ ले सकता है और इसे बोली जाने वाली भाषा या ऑडियो में परिवर्तित कर सकता है (जैसा कि भाषण संश्लेषण के मामले में होता है)। इसमें कोई निर्देश या बातचीत हो सकती है और प्रतिक्रिया देने की कोशिश की जा सकती है। असल में, कंप्यूटर कोड में लागू किया गया डेटा रूपांतरण हमें कई अलग-अलग कार्य करने की अनुमति दे सकता है।
हालाँकि, जिन डेटा परिवर्तनों को हम AI “मॉडल” के रूप में संदर्भित करते हैं, उनमें एक विशेष गुण होता है। वे कंप्यूटर कोड का उपयोग करके डेटा को कई सेटिंग्स या कॉन्फ़िगरेशन के साथ रूपांतरित करते हैं जिन्हें आमतौर पर पैरामीटर कहा जाता है। कुछ AI मॉडल में लाखों, अरबों या सैकड़ों अरबों पैरामीटर हो सकते हैं। मापदंडों को “प्रशिक्षण” नामक पुनरावृत्त प्रक्रिया के माध्यम से कॉन्फ़िगर किया गया है। प्रशिक्षण के दौरान, पैरामीटर स्वचालित रूप से समायोजित हो जाते हैं, कुछ उदाहरण इनपुट रूपांतरित हो जाते हैं, आउटपुट को अच्छा या बुरा माना जाता है, और फिर मापदंडों को और समायोजित किया जाता है। यह तब तक चलता रहता है जब तक आप कंप्यूटर कोड के साथ समाप्त नहीं हो जाते, जिसे मापदंडों के माध्यम से कॉन्फ़िगर किया जा सकता है, ताकि कुछ बहुत ही परिष्कृत डेटा रूपांतरण (जैसे एक भाषा में टेक्स्ट लेना और दूसरी भाषा में टेक्स्ट आउटपुट करना) किया जा सके।
जब बाइबल अनुवाद संगठन किसी दी गई भाषा जोड़ी के मौजूदा मानव अनुवादित डेटा का उपयोग उस भाषा जोड़ी का अनुवाद करने के लिए एक मॉडल को “फाइन-ट्यून” करने के लिए कर रहे हैं, तो वे इस पुनरावृत्त प्रक्रिया को निष्पादित कर रहे हैं। अर्थात्, वे वास्तव में उस भाषा जोड़ी के लिए AI मॉडल को विशिष्ट रूप से कॉन्फ़िगर कर रहे हैं जो उनके दिमाग में है। इसका फायदा यह है कि यह AI मॉडल को दिए गए परिदृश्य के लिए विशेष रूप से उपयुक्त बना सकता है। हालांकि, कुछ महत्वपूर्ण चुनौतियां भी हैं। इस तरह की प्रक्रिया के लिए आम तौर पर ग्राफ़िकल प्रोसेसिंग यूनिट (या GPU) जैसे घटकों वाले महंगे, विशेष कंप्यूटरों की आवश्यकता होती है, ऐसे विशेषज्ञ जो इस इन्फ्रास्ट्रक्चर और संबंधित कोड को कॉन्फ़िगर कर सकते हैं, और आपके मन में मौजूद परिदृश्य के कुछ मौजूदा डेटा प्रतिनिधि की आवश्यकता होती है। ये बाधाएं गैर-लाभकारी बाइबल अनुवाद संगठनों और मौजूदा डेटा के बिना कम संसाधन वाली भाषाओं के लिए एक चुनौती हो सकती हैं।
अब, चलिए इसकी तुलना करते हैं कि क्या हो रहा है जब हम अनुवादक के सवालों के जवाब देने के लिए एक अत्याधुनिक जनरेटिव एआई मॉडल के साथ टाइंडेल स्टडी नोट्स जैसी किसी चीज़ को एकीकृत करते हैं। सबसे पहले, आवश्यक मॉडल का कोई महंगा अपडेट नहीं है। व्यापक उद्योग में चल रहे AI अनुप्रयोगों की नवीनतम लहर “फाइन-ट्यूनिंग” के बजाय रिट्रीवल ऑगमेंटेड जनरेशन या RAG नामक प्रक्रिया का उपयोग करती है। इस प्रक्रिया में AI मॉडल वही रहता है, जब इसे Google, OpenAI द्वारा प्रशिक्षित किया गया था, या किसी अन्य संगठन के पास ऐसा मॉडल बनाने के लिए बुनियादी ढांचा और संसाधन हैं। उस मॉडल के उपभोक्ता के रूप में, हम पुनर्प्राप्ति के माध्यम से अपने स्वयं के डेटा के साथ शेल्फ से इसका उपयोग कर सकते हैं।
यह इस तरह काम करता है: (1) एक अनुरोध या उपयोगकर्ता संदेश प्राप्त होता है (जैसे कि “एफ़ोड क्या है?” प्रश्न का उत्तर देने का अनुरोध) ; (2) हम डेटा के भंडार में प्रासंगिक बाहरी डेटा से उस उपयोगकर्ता संदेश का मिलान करते हैं (जैसे बाइबल एक्वीफर में एफोड के बारे में एक लेख); (3) हम उस प्रासंगिक डेटा के एक हिस्से को AI मॉडल में अपने इनपुट में सम्मिलित करते हैं (जैसे कि AI मॉडल से उस लेख के आधार पर उपयोगकर्ता प्रश्न का उत्तर देने के लिए कहना जिसे हमने पुनर्प्राप्त किया है); और (4) हमें एक आउटपुट वापस मिलता है जो हमारे डेटा को ध्यान में रखता है। भले ही हमने अपने डेटा पर मॉडल को फिर से प्रशिक्षित नहीं किया है!
पुनर्प्राप्ति आधारित RAG वर्कफ़्लो लोगों के AI मॉडल के साथ काम करने के तरीके को बदल रहा है, क्योंकि इसका मतलब है कि बेहतर आउटपुट के लिए लगभग कोई भी व्यक्ति अपने स्वयं के डेटा को AI मॉडल में एकीकृत कर सकता है। वास्तव में, यह आपके लिए उन सभी डेटा में छिपे हुए मूल्य को अनलॉक करने का एक तरीका है, जिन्हें आप वर्षों से जमा कर रहे हैं। आप उपयोगकर्ता इनपुट को पुन: स्वरूपित करने के अनुरोध में पैराटेक्स्ट फ़ॉर्मेटिंग को लागू करने के तरीके के प्रासंगिक उदाहरणों को एकीकृत कर सकते हैं, और आप किसी विशेष बाइबल रिफ़ॉर्मेटर मॉडल को प्रशिक्षित किए बिना ऐसा कर सकते हैं। आप संगठन की विशिष्ट अनुवाद नीतियों या प्रशिक्षण दस्तावेज़ों को किसी सहायक को फीड कर सकते हैं, जो अनुवाद टीम के सवालों के जवाब देने में मदद करता है। आप एक अंश से संबंधित भक्ति के लिए पवित्रशास्त्र से जुड़े लेख खोज सकते हैं और एक संबंधित प्रार्थना तैयार कर सकते हैं जो लेख के धर्मशास्त्र पर आधारित है। और भी बहुत सारी संभावनाएँ हैं!
अब, विशेष रूप से मशीनी अनुवाद के लिए, बाहरी डेटा के साथ संवर्धित ऑफ-द-शेल्फ मॉडल की तुलना में फाइन-ट्यून किए गए और अद्वितीय मॉडल अभी भी बेहतर हैं। हालांकि, कोई ऐसे समय की कल्पना कर सकता है जब एक ऑफ-द-शेल्फ मॉडल को अनुवाद नियमों का निर्माण करने या पुनर्प्राप्ति के माध्यम से एक भाषा को दूसरी भाषा में अनुकूलित करने के तरीके के बारे में ज्ञान प्रदान किया जा सकता है। मानव अनुवादक पायलट के साथ सह-पायलट के रूप में लागू की गई ये विधियाँ अनुवादकों को अब मदद प्रदान करने और समय के साथ सभी पहुँच लक्ष्यों की दिशा में महत्वपूर्ण तेजी लाने का वादा करती हैं।
यदि आप नई ChatGPT सुविधाओं या RAG वर्कफ़्लोज़ के बारे में और जानना चाहते हैं, तो हम शो नोट्स में कुछ लिंक शामिल करेंगे। अभी के लिए बस इतना ही, जल्द ही Tech and Testament के एक और एपिसोड की तलाश करें!
At your invitation to improve translation quality, here are a couple of translation errors I spotted. 成绩单 is a school grade report and not a transcription of text, a more appropriate term is 文本. Also the title of the Podcast Tech and Testament uses 遗嘱 "a legal will" as the translation for testament rather than 契约 "a covenant" which is the term used for the testaments in the Bible.